返回

01-what-is-machine-learning.md

3.7 KB · MD · 2026-06-05 05:18

第一讲:什么是机器学习

1. 先给直觉

传统程序是人写规则,机器照着规则执行。

机器学习不是先写死规则,而是给机器很多例子,让模型从例子里找到规律。

一个简单对比:

任务 传统程序 机器学习
判断邮件是否垃圾邮件 人手写很多规则 给模型很多邮件和标签,让它学
判断图片里是不是猫 人很难写完整规则 给模型大量猫和非猫图片
预测房价 人写公式 给模型历史房屋数据和成交价

机器学习的核心不是“机器有了智能”,而是“模型通过数据调整自己的参数,使预测越来越接近目标”。

2. 三个核心组件

机器学习问题通常可以拆成三件事:

  1. 数据:模型从哪里学习。
  2. 模型:用什么形式表达规律。
  3. 损失函数:怎样衡量模型错得有多离谱。

以房价预测为例:

输入数据:面积、位置、楼层、房龄
目标标签:真实成交价
模型输出:预测房价
损失函数:预测房价和真实房价的差距

训练的意思就是:不断调整模型参数,让损失变小。

3. 什么是模型

模型可以先理解成一个函数:

输出 = 模型(输入)

比如:

预测房价 = 模型(面积、位置、楼层、房龄)

模型内部有很多可以调整的参数。训练前,这些参数通常不够好;训练后,参数被数据调整过,预测会更接近真实结果。

4. 训练和推理

机器学习里要区分两个阶段:

阶段 做什么 是否需要答案
训练 training 用数据调整模型参数 需要真实答案
推理 inference 用训练好的模型做预测 不需要真实答案

比如垃圾邮件识别:

  • 训练时:给模型邮件内容和“是否垃圾邮件”的正确标签。
  • 推理时:给模型一封新邮件,让它判断是不是垃圾邮件。

我们后面学习 Transformer 和 YOLO 时,也会反复看到这个区别。

5. 机器学习和深度学习的关系

深度学习是机器学习的一类方法。

普通机器学习里,很多特征需要人设计。例如房价预测里,人要决定使用面积、位置、房龄等特征。

深度学习更常见的方式是:让神经网络自己从原始数据中逐层提取特征。

例如图片识别:

原始像素 -> 边缘/纹理 -> 局部形状 -> 物体部件 -> 类别

这也是为什么深度学习特别适合图像、语音、文本这类复杂数据。

6. 和本专题三大板块的关系

机器学习与深度学习基础是地基。

Transformer 是深度学习里处理序列和文本非常重要的结构,现代大语言模型基本围绕它发展。

YOLO 是深度学习在计算机视觉目标检测任务上的经典工程路线,它关心的是图片里有什么、在哪里。

三者关系可以这样看:

机器学习:从数据中学习规律
深度学习:用神经网络学习复杂规律
Transformer:深度学习中处理文本/序列的核心结构
YOLO:深度学习中处理目标检测的经典结构

7. 本节要掌握的最小闭环

学完这一讲,只要记住这条主线:

数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好的预测

这就是训练的基本闭环。

8. 理解检查

请尝试回答:

  1. 机器学习和传统程序最大的区别是什么?
  2. 为什么训练时需要真实答案,而推理时不需要?
  3. “损失函数”在训练中起什么作用?
  4. 深度学习为什么适合图片、文本、语音这类复杂数据?
  5. Transformer 和 YOLO 分别主要处理什么类型的问题?