返回

02-data-features-labels.md

5.2 KB · MD · 2026-06-05 06:25

第二讲:数据、特征与标签

1. 先给直觉

机器学习不是直接“喂给模型一堆东西”,而是把现实问题整理成模型能处理的结构。

最常见的结构是:

样本 -> 特征 -> 标签

以房价预测为例:

一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
成交价格 = 标签

模型训练时看到很多这样的例子,然后学习:

特征和标签之间有什么关系

2. 样本是什么

样本就是一个具体的训练例子。

不同任务里的样本不同:

任务 一个样本是什么
房价预测 一套房子的记录
垃圾邮件识别 一封邮件
图像分类 一张图片
目标检测 一张图片加里面的物体标注
文本生成 一段文本

数据集就是很多样本组成的集合。

3. 特征是什么

特征是模型用来判断或预测的信息。

房价预测中:

面积、位置、楼层、房龄

是特征。

垃圾邮件识别中:

邮件标题、正文词语、链接数量、发件人信息

可以是特征。

图像任务中,最原始的特征可以是像素值。

文本任务中,原始输入会先变成 token,再变成向量,也就是 embedding。

4. 标签是什么

标签是训练时用来告诉模型“正确答案是什么”的信息。

例如:

任务 标签
房价预测 真实成交价格
垃圾邮件识别 是否垃圾邮件
图像分类 图片类别
目标检测 物体类别和位置框
情感分类 正面/负面/中性

标签主要出现在监督学习中。

训练时,模型先根据特征给出预测,然后拿预测和标签比较,得到损失,再更新参数。

5. 监督学习

监督学习就是训练数据里有明确答案。

结构通常是:

输入特征 X -> 正确标签 y

例子:

邮件内容 -> 是否垃圾邮件
房屋信息 -> 成交价格
图片 -> 猫/狗/车/人

第一讲里你说“人工给出数据集的评判,让模型学习规律”,这主要描述的就是监督学习。

6. 无监督学习

无监督学习没有人工给出的正确标签。

它不是让模型随便想,而是让模型从数据本身发现结构。

常见任务:

聚类:把相似样本分到一组
降维:把高维数据压缩成更容易观察的低维表示
异常检测:找出和大多数数据不一样的样本

例子:

给模型一堆用户行为数据,但不告诉它用户类型。
模型可能发现:有些用户常买电子产品,有些用户常买母婴用品,有些用户只在促销时下单。

这里没有“正确答案标签”,但数据中仍然可能有结构。

7. 自监督学习

自监督学习也没有人工标注标签,但它会从数据本身构造训练目标。

大语言模型的预训练就是典型例子:

给定前文,预测下一个 token

例如:

输入:今天的天气很
目标:好

这里的“好”不是人工额外标注的,而是文本本身天然存在的下一个词。

所以自监督学习不是没有目标,而是目标来自数据本身。

8. 深度学习和标签的关系

一个常见误区是:

深度学习 = 不需要人工标注

这是不准确的。

深度学习是一类使用多层神经网络的方法,它可以用于:

学习方式 是否可能使用深度学习 是否需要人工标签
监督学习 可以 通常需要
无监督学习 可以 不需要
自监督学习 可以 不需要人工额外标注

所以更准确的说法是:

深度学习不是靠是否有标签来定义的,而是靠模型结构来定义的。

它的关键特点是:用多层神经网络从数据中自动学习特征。

9. 本节最小闭环

这一讲只需要记住:

样本:一个训练例子
特征:模型用来做判断的信息
标签:训练时提供的正确答案

以及:

监督学习:有标签
无监督学习:没有标签,发现数据结构
自监督学习:没有人工标签,从数据本身构造训练目标
深度学习:使用多层神经网络的方法,可以出现在以上几类学习方式中

10. 易混点

易混点一:没有标签不等于没有目标

自监督学习没有人工标注标签,但仍然有训练目标。

大语言模型预训练时的目标是预测下一个 token。

易混点二:深度学习不等于自监督学习

深度学习说的是模型形式。

监督、无监督、自监督说的是训练数据和训练目标的组织方式。

这两个维度不是一回事。

易混点三:特征不一定都是人工设计的

传统机器学习常常需要人工设计特征。

深度学习常常从原始数据中自动学习特征,例如从像素中学边缘、纹理、形状。

11. 理解检查

请尝试回答:

  1. 房价预测中,样本、特征、标签分别是什么?
  2. 垃圾邮件识别为什么通常属于监督学习?
  3. 无监督学习没有标签,那它还能学什么?
  4. 大语言模型预训练为什么常被称为自监督学习?
  5. 为什么“深度学习不用人工标注”这个说法不准确?