# 第二讲：数据、特征与标签

## 1. 先给直觉

机器学习不是直接“喂给模型一堆东西”，而是把现实问题整理成模型能处理的结构。

最常见的结构是：

```text
样本 -> 特征 -> 标签
```

以房价预测为例：

```text
一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
成交价格 = 标签
```

模型训练时看到很多这样的例子，然后学习：

```text
特征和标签之间有什么关系
```

## 2. 样本是什么

样本就是一个具体的训练例子。

不同任务里的样本不同：

| 任务 | 一个样本是什么 |
|---|---|
| 房价预测 | 一套房子的记录 |
| 垃圾邮件识别 | 一封邮件 |
| 图像分类 | 一张图片 |
| 目标检测 | 一张图片加里面的物体标注 |
| 文本生成 | 一段文本 |

数据集就是很多样本组成的集合。

## 3. 特征是什么

特征是模型用来判断或预测的信息。

房价预测中：

```text
面积、位置、楼层、房龄
```

是特征。

垃圾邮件识别中：

```text
邮件标题、正文词语、链接数量、发件人信息
```

可以是特征。

图像任务中，最原始的特征可以是像素值。

文本任务中，原始输入会先变成 token，再变成向量，也就是 embedding。

## 4. 标签是什么

标签是训练时用来告诉模型“正确答案是什么”的信息。

例如：

| 任务 | 标签 |
|---|---|
| 房价预测 | 真实成交价格 |
| 垃圾邮件识别 | 是否垃圾邮件 |
| 图像分类 | 图片类别 |
| 目标检测 | 物体类别和位置框 |
| 情感分类 | 正面/负面/中性 |

标签主要出现在监督学习中。

训练时，模型先根据特征给出预测，然后拿预测和标签比较，得到损失，再更新参数。

## 5. 监督学习

监督学习就是训练数据里有明确答案。

结构通常是：

```text
输入特征 X -> 正确标签 y
```

例子：

```text
邮件内容 -> 是否垃圾邮件
房屋信息 -> 成交价格
图片 -> 猫/狗/车/人
```

第一讲里你说“人工给出数据集的评判，让模型学习规律”，这主要描述的就是监督学习。

## 6. 无监督学习

无监督学习没有人工给出的正确标签。

它不是让模型随便想，而是让模型从数据本身发现结构。

常见任务：

```text
聚类：把相似样本分到一组
降维：把高维数据压缩成更容易观察的低维表示
异常检测：找出和大多数数据不一样的样本
```

例子：

```text
给模型一堆用户行为数据，但不告诉它用户类型。
模型可能发现：有些用户常买电子产品，有些用户常买母婴用品，有些用户只在促销时下单。
```

这里没有“正确答案标签”，但数据中仍然可能有结构。

## 7. 自监督学习

自监督学习也没有人工标注标签，但它会从数据本身构造训练目标。

大语言模型的预训练就是典型例子：

```text
给定前文，预测下一个 token
```

例如：

```text
输入：今天的天气很
目标：好
```

这里的“好”不是人工额外标注的，而是文本本身天然存在的下一个词。

所以自监督学习不是没有目标，而是目标来自数据本身。

## 8. 深度学习和标签的关系

一个常见误区是：

```text
深度学习 = 不需要人工标注
```

这是不准确的。

深度学习是一类使用多层神经网络的方法，它可以用于：

| 学习方式 | 是否可能使用深度学习 | 是否需要人工标签 |
|---|---|---|
| 监督学习 | 可以 | 通常需要 |
| 无监督学习 | 可以 | 不需要 |
| 自监督学习 | 可以 | 不需要人工额外标注 |

所以更准确的说法是：

```text
深度学习不是靠是否有标签来定义的，而是靠模型结构来定义的。
```

它的关键特点是：用多层神经网络从数据中自动学习特征。

## 9. 本节最小闭环

这一讲只需要记住：

```text
样本：一个训练例子
特征：模型用来做判断的信息
标签：训练时提供的正确答案
```

以及：

```text
监督学习：有标签
无监督学习：没有标签，发现数据结构
自监督学习：没有人工标签，从数据本身构造训练目标
深度学习：使用多层神经网络的方法，可以出现在以上几类学习方式中
```

## 10. 易混点

### 易混点一：没有标签不等于没有目标

自监督学习没有人工标注标签，但仍然有训练目标。

大语言模型预训练时的目标是预测下一个 token。

### 易混点二：深度学习不等于自监督学习

深度学习说的是模型形式。

监督、无监督、自监督说的是训练数据和训练目标的组织方式。

这两个维度不是一回事。

### 易混点三：特征不一定都是人工设计的

传统机器学习常常需要人工设计特征。

深度学习常常从原始数据中自动学习特征，例如从像素中学边缘、纹理、形状。

## 11. 理解检查

请尝试回答：

1. 房价预测中，样本、特征、标签分别是什么？
2. 垃圾邮件识别为什么通常属于监督学习？
3. 无监督学习没有标签，那它还能学什么？
4. 大语言模型预训练为什么常被称为自监督学习？
5. 为什么“深度学习不用人工标注”这个说法不准确？