# 第二讲理解检查：数据、特征与标签

日期：2026-06-05

## 问题 1

房价预测中，样本、特征、标签分别是什么？

### 学生回答

```text
一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
真实成交价格 = 标签
```

### 点评

正确。

这个例子已经能完整对应监督学习中的 `X -> y` 结构：

```text
房屋特征 X -> 成交价格 y
```

## 问题 2

垃圾邮件识别为什么通常属于监督学习？

### 学生回答

```text
是否垃圾邮件是要让人来判别的，邮件内容模型本身不知道是好是坏。
```

### 点评

正确。

更完整的说法是：

- 邮件内容是输入特征。
- 是否垃圾邮件是标签。
- 训练时模型需要用这些标签来计算预测是否正确。

## 问题 3

无监督学习没有标签，那它还能学什么？

### 学生回答

```text
无监督学习不用人工标签，但是它有特殊的数据结构，模型能够找到规律。
```

### 点评

基本正确。

建议把“特殊的数据结构”改成更通用的说法：

```text
数据自身存在统计结构、相似性、分布规律或异常模式。
```

无监督学习可以学习：

- 哪些样本彼此相似。
- 数据可以分成哪些群组。
- 哪些样本很异常。
- 高维数据是否可以压缩成低维表示。

## 问题 4

大语言模型预训练为什么常被称为自监督学习？

### 学生回答

```text
大语言模型数据量太大，人工标注太麻烦，并且数据拥有规律，可以让模型自监督学习。
```

### 点评

方向正确，但需要更精确。

数据量大、人工标注太麻烦，是使用自监督学习的重要现实原因，但不是自监督学习的定义。

更准确的定义是：

```text
自监督学习从数据本身构造训练目标，不需要人工额外标注标签。
```

大语言模型预训练的典型目标是：

```text
给定前文，预测下一个 token
```

目标 token 来自文本本身，所以称为自监督学习。

## 问题 5

为什么“深度学习不用人工标注”这个说法不准确？

### 学生回答

```text
深度学习可以用于监督学习，也可以用于无监督学习和自监督学习。
很多图像分类、目标检测、语音识别任务都是深度学习，但仍然需要人工标签。
```

### 点评

正确。

需要长期记住这条区分：

```text
深度学习：模型结构维度，核心是多层神经网络。
监督/无监督/自监督：训练方式维度，核心是数据和目标怎样组织。
```

## 本讲结论

第二讲通过。

当前已经掌握：

- 样本、特征、标签。
- 监督学习依赖标签。
- 无监督学习发现数据自身结构。
- 自监督学习从数据本身构造训练目标。
- 深度学习不等于不需要人工标注。