第二讲：数据、特征与标签

1. 先给直觉

机器学习不是直接“喂给模型一堆东西”，而是把现实问题整理成模型能处理的结构。

最常见的结构是：

样本 -> 特征 -> 标签

以房价预测为例：

一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
成交价格 = 标签

模型训练时看到很多这样的例子，然后学习：

特征和标签之间有什么关系

2. 样本是什么

样本就是一个具体的训练例子。

不同任务里的样本不同：

任务	一个样本是什么
房价预测	一套房子的记录
垃圾邮件识别	一封邮件
图像分类	一张图片
目标检测	一张图片加里面的物体标注
文本生成	一段文本

数据集就是很多样本组成的集合。

3. 特征是什么

特征是模型用来判断或预测的信息。

房价预测中：

面积、位置、楼层、房龄

是特征。

垃圾邮件识别中：

邮件标题、正文词语、链接数量、发件人信息

可以是特征。

图像任务中，最原始的特征可以是像素值。

文本任务中，原始输入会先变成 token，再变成向量，也就是 embedding。

4. 标签是什么

标签是训练时用来告诉模型“正确答案是什么”的信息。

例如：

任务	标签
房价预测	真实成交价格
垃圾邮件识别	是否垃圾邮件
图像分类	图片类别
目标检测	物体类别和位置框
情感分类	正面/负面/中性

标签主要出现在监督学习中。

训练时，模型先根据特征给出预测，然后拿预测和标签比较，得到损失，再更新参数。

5. 监督学习

监督学习就是训练数据里有明确答案。

结构通常是：

输入特征 X -> 正确标签 y

例子：

邮件内容 -> 是否垃圾邮件
房屋信息 -> 成交价格
图片 -> 猫/狗/车/人

第一讲里你说“人工给出数据集的评判，让模型学习规律”，这主要描述的就是监督学习。

6. 无监督学习

无监督学习没有人工给出的正确标签。

它不是让模型随便想，而是让模型从数据本身发现结构。

常见任务：

聚类：把相似样本分到一组
降维：把高维数据压缩成更容易观察的低维表示
异常检测：找出和大多数数据不一样的样本

例子：

给模型一堆用户行为数据，但不告诉它用户类型。
模型可能发现：有些用户常买电子产品，有些用户常买母婴用品，有些用户只在促销时下单。

这里没有“正确答案标签”，但数据中仍然可能有结构。

7. 自监督学习

自监督学习也没有人工标注标签，但它会从数据本身构造训练目标。

大语言模型的预训练就是典型例子：

给定前文，预测下一个 token

例如：

输入：今天的天气很
目标：好

这里的“好”不是人工额外标注的，而是文本本身天然存在的下一个词。

所以自监督学习不是没有目标，而是目标来自数据本身。

8. 深度学习和标签的关系

一个常见误区是：

深度学习 = 不需要人工标注

这是不准确的。

深度学习是一类使用多层神经网络的方法，它可以用于：

学习方式	是否可能使用深度学习	是否需要人工标签
监督学习	可以	通常需要
无监督学习	可以	不需要
自监督学习	可以	不需要人工额外标注

所以更准确的说法是：

深度学习不是靠是否有标签来定义的，而是靠模型结构来定义的。

它的关键特点是：用多层神经网络从数据中自动学习特征。

9. 本节最小闭环

这一讲只需要记住：

样本：一个训练例子
特征：模型用来做判断的信息
标签：训练时提供的正确答案

以及：

监督学习：有标签
无监督学习：没有标签，发现数据结构
自监督学习：没有人工标签，从数据本身构造训练目标
深度学习：使用多层神经网络的方法，可以出现在以上几类学习方式中

10. 易混点

易混点一：没有标签不等于没有目标

自监督学习没有人工标注标签，但仍然有训练目标。

大语言模型预训练时的目标是预测下一个 token。

易混点二：深度学习不等于自监督学习

深度学习说的是模型形式。

监督、无监督、自监督说的是训练数据和训练目标的组织方式。

这两个维度不是一回事。

易混点三：特征不一定都是人工设计的

传统机器学习常常需要人工设计特征。

深度学习常常从原始数据中自动学习特征，例如从像素中学边缘、纹理、形状。

11. 理解检查

请尝试回答：

房价预测中，样本、特征、标签分别是什么？
垃圾邮件识别为什么通常属于监督学习？
无监督学习没有标签，那它还能学什么？
大语言模型预训练为什么常被称为自监督学习？
为什么“深度学习不用人工标注”这个说法不准确？