第二讲理解检查：数据、特征与标签

日期：2026-06-05

问题 1

房价预测中，样本、特征、标签分别是什么？

一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
真实成交价格 = 标签

正确。

这个例子已经能完整对应监督学习中的 X -> y 结构：

房屋特征 X -> 成交价格 y

垃圾邮件识别为什么通常属于监督学习？

是否垃圾邮件是要让人来判别的，邮件内容模型本身不知道是好是坏。

正确。

更完整的说法是：

无监督学习没有标签，那它还能学什么？

无监督学习不用人工标签，但是它有特殊的数据结构，模型能够找到规律。

基本正确。

建议把“特殊的数据结构”改成更通用的说法：

数据自身存在统计结构、相似性、分布规律或异常模式。

无监督学习可以学习：

大语言模型预训练为什么常被称为自监督学习？

大语言模型数据量太大，人工标注太麻烦，并且数据拥有规律，可以让模型自监督学习。

方向正确，但需要更精确。

数据量大、人工标注太麻烦，是使用自监督学习的重要现实原因，但不是自监督学习的定义。

更准确的定义是：

自监督学习从数据本身构造训练目标，不需要人工额外标注标签。

大语言模型预训练的典型目标是：

给定前文，预测下一个 token

目标 token 来自文本本身，所以称为自监督学习。

为什么“深度学习不用人工标注”这个说法不准确？

深度学习可以用于监督学习，也可以用于无监督学习和自监督学习。
很多图像分类、目标检测、语音识别任务都是深度学习，但仍然需要人工标签。

正确。

需要长期记住这条区分：

深度学习：模型结构维度，核心是多层神经网络。
监督/无监督/自监督：训练方式维度，核心是数据和目标怎样组织。

第二讲通过。

当前已经掌握：