第二讲理解检查:数据、特征与标签
日期:2026-06-05
问题 1
房价预测中,样本、特征、标签分别是什么?
学生回答
一套房子 = 一个样本
面积、位置、楼层、房龄 = 特征
真实成交价格 = 标签
点评
正确。
这个例子已经能完整对应监督学习中的 X -> y 结构:
房屋特征 X -> 成交价格 y
问题 2
垃圾邮件识别为什么通常属于监督学习?
学生回答
是否垃圾邮件是要让人来判别的,邮件内容模型本身不知道是好是坏。
点评
正确。
更完整的说法是:
- 邮件内容是输入特征。
- 是否垃圾邮件是标签。
- 训练时模型需要用这些标签来计算预测是否正确。
问题 3
无监督学习没有标签,那它还能学什么?
学生回答
无监督学习不用人工标签,但是它有特殊的数据结构,模型能够找到规律。
点评
基本正确。
建议把“特殊的数据结构”改成更通用的说法:
数据自身存在统计结构、相似性、分布规律或异常模式。
无监督学习可以学习:
- 哪些样本彼此相似。
- 数据可以分成哪些群组。
- 哪些样本很异常。
- 高维数据是否可以压缩成低维表示。
问题 4
大语言模型预训练为什么常被称为自监督学习?
学生回答
大语言模型数据量太大,人工标注太麻烦,并且数据拥有规律,可以让模型自监督学习。
点评
方向正确,但需要更精确。
数据量大、人工标注太麻烦,是使用自监督学习的重要现实原因,但不是自监督学习的定义。
更准确的定义是:
自监督学习从数据本身构造训练目标,不需要人工额外标注标签。
大语言模型预训练的典型目标是:
给定前文,预测下一个 token
目标 token 来自文本本身,所以称为自监督学习。
问题 5
为什么“深度学习不用人工标注”这个说法不准确?
学生回答
深度学习可以用于监督学习,也可以用于无监督学习和自监督学习。
很多图像分类、目标检测、语音识别任务都是深度学习,但仍然需要人工标签。
点评
正确。
需要长期记住这条区分:
深度学习:模型结构维度,核心是多层神经网络。
监督/无监督/自监督:训练方式维度,核心是数据和目标怎样组织。
本讲结论
第二讲通过。
当前已经掌握:
- 样本、特征、标签。
- 监督学习依赖标签。
- 无监督学习发现数据自身结构。
- 自监督学习从数据本身构造训练目标。
- 深度学习不等于不需要人工标注。