第二讲:数据、特征与标签
1. 先给直觉
机器学习不是直接“喂给模型一堆东西”,而是把现实问题整理成模型能处理的结构。
最常见的结构是:
样本 -> 特征 -> 标签
以房价预测为例:
一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
成交价格 = 标签
模型训练时看到很多这样的例子,然后学习:
特征和标签之间有什么关系
2. 样本是什么
样本就是一个具体的训练例子。
不同任务里的样本不同:
| 任务 | 一个样本是什么 |
|---|---|
| 房价预测 | 一套房子的记录 |
| 垃圾邮件识别 | 一封邮件 |
| 图像分类 | 一张图片 |
| 目标检测 | 一张图片加里面的物体标注 |
| 文本生成 | 一段文本 |
数据集就是很多样本组成的集合。
3. 特征是什么
特征是模型用来判断或预测的信息。
房价预测中:
面积、位置、楼层、房龄
是特征。
垃圾邮件识别中:
邮件标题、正文词语、链接数量、发件人信息
可以是特征。
图像任务中,最原始的特征可以是像素值。
文本任务中,原始输入会先变成 token,再变成向量,也就是 embedding。
4. 标签是什么
标签是训练时用来告诉模型“正确答案是什么”的信息。
例如:
| 任务 | 标签 |
|---|---|
| 房价预测 | 真实成交价格 |
| 垃圾邮件识别 | 是否垃圾邮件 |
| 图像分类 | 图片类别 |
| 目标检测 | 物体类别和位置框 |
| 情感分类 | 正面/负面/中性 |
标签主要出现在监督学习中。
训练时,模型先根据特征给出预测,然后拿预测和标签比较,得到损失,再更新参数。
5. 监督学习
监督学习就是训练数据里有明确答案。
结构通常是:
输入特征 X -> 正确标签 y
例子:
邮件内容 -> 是否垃圾邮件
房屋信息 -> 成交价格
图片 -> 猫/狗/车/人
第一讲里你说“人工给出数据集的评判,让模型学习规律”,这主要描述的就是监督学习。
6. 无监督学习
无监督学习没有人工给出的正确标签。
它不是让模型随便想,而是让模型从数据本身发现结构。
常见任务:
聚类:把相似样本分到一组
降维:把高维数据压缩成更容易观察的低维表示
异常检测:找出和大多数数据不一样的样本
例子:
给模型一堆用户行为数据,但不告诉它用户类型。
模型可能发现:有些用户常买电子产品,有些用户常买母婴用品,有些用户只在促销时下单。
这里没有“正确答案标签”,但数据中仍然可能有结构。
7. 自监督学习
自监督学习也没有人工标注标签,但它会从数据本身构造训练目标。
大语言模型的预训练就是典型例子:
给定前文,预测下一个 token
例如:
输入:今天的天气很
目标:好
这里的“好”不是人工额外标注的,而是文本本身天然存在的下一个词。
所以自监督学习不是没有目标,而是目标来自数据本身。
8. 深度学习和标签的关系
一个常见误区是:
深度学习 = 不需要人工标注
这是不准确的。
深度学习是一类使用多层神经网络的方法,它可以用于:
| 学习方式 | 是否可能使用深度学习 | 是否需要人工标签 |
|---|---|---|
| 监督学习 | 可以 | 通常需要 |
| 无监督学习 | 可以 | 不需要 |
| 自监督学习 | 可以 | 不需要人工额外标注 |
所以更准确的说法是:
深度学习不是靠是否有标签来定义的,而是靠模型结构来定义的。
它的关键特点是:用多层神经网络从数据中自动学习特征。
9. 本节最小闭环
这一讲只需要记住:
样本:一个训练例子
特征:模型用来做判断的信息
标签:训练时提供的正确答案
以及:
监督学习:有标签
无监督学习:没有标签,发现数据结构
自监督学习:没有人工标签,从数据本身构造训练目标
深度学习:使用多层神经网络的方法,可以出现在以上几类学习方式中
10. 易混点
易混点一:没有标签不等于没有目标
自监督学习没有人工标注标签,但仍然有训练目标。
大语言模型预训练时的目标是预测下一个 token。
易混点二:深度学习不等于自监督学习
深度学习说的是模型形式。
监督、无监督、自监督说的是训练数据和训练目标的组织方式。
这两个维度不是一回事。
易混点三:特征不一定都是人工设计的
传统机器学习常常需要人工设计特征。
深度学习常常从原始数据中自动学习特征,例如从像素中学边缘、纹理、形状。
11. 理解检查
请尝试回答:
- 房价预测中,样本、特征、标签分别是什么?
- 垃圾邮件识别为什么通常属于监督学习?
- 无监督学习没有标签,那它还能学什么?
- 大语言模型预训练为什么常被称为自监督学习?
- 为什么“深度学习不用人工标注”这个说法不准确?