# 第一讲：什么是机器学习

## 1. 先给直觉

传统程序是人写规则，机器照着规则执行。

机器学习不是先写死规则，而是给机器很多例子，让模型从例子里找到规律。

一个简单对比：

| 任务 | 传统程序 | 机器学习 |
|---|---|---|
| 判断邮件是否垃圾邮件 | 人手写很多规则 | 给模型很多邮件和标签，让它学 |
| 判断图片里是不是猫 | 人很难写完整规则 | 给模型大量猫和非猫图片 |
| 预测房价 | 人写公式 | 给模型历史房屋数据和成交价 |

机器学习的核心不是“机器有了智能”，而是“模型通过数据调整自己的参数，使预测越来越接近目标”。

## 2. 三个核心组件

机器学习问题通常可以拆成三件事：

1. 数据：模型从哪里学习。
2. 模型：用什么形式表达规律。
3. 损失函数：怎样衡量模型错得有多离谱。

以房价预测为例：

```text
输入数据：面积、位置、楼层、房龄
目标标签：真实成交价
模型输出：预测房价
损失函数：预测房价和真实房价的差距
```

训练的意思就是：不断调整模型参数，让损失变小。

## 3. 什么是模型

模型可以先理解成一个函数：

```text
输出 = 模型(输入)
```

比如：

```text
预测房价 = 模型(面积、位置、楼层、房龄)
```

模型内部有很多可以调整的参数。训练前，这些参数通常不够好；训练后，参数被数据调整过，预测会更接近真实结果。

## 4. 训练和推理

机器学习里要区分两个阶段：

| 阶段 | 做什么 | 是否需要答案 |
|---|---|---|
| 训练 training | 用数据调整模型参数 | 需要真实答案 |
| 推理 inference | 用训练好的模型做预测 | 不需要真实答案 |

比如垃圾邮件识别：

- 训练时：给模型邮件内容和“是否垃圾邮件”的正确标签。
- 推理时：给模型一封新邮件，让它判断是不是垃圾邮件。

我们后面学习 Transformer 和 YOLO 时，也会反复看到这个区别。

## 5. 机器学习和深度学习的关系

深度学习是机器学习的一类方法。

普通机器学习里，很多特征需要人设计。例如房价预测里，人要决定使用面积、位置、房龄等特征。

深度学习更常见的方式是：让神经网络自己从原始数据中逐层提取特征。

例如图片识别：

```text
原始像素 -> 边缘/纹理 -> 局部形状 -> 物体部件 -> 类别
```

这也是为什么深度学习特别适合图像、语音、文本这类复杂数据。

## 6. 和本专题三大板块的关系

机器学习与深度学习基础是地基。

Transformer 是深度学习里处理序列和文本非常重要的结构，现代大语言模型基本围绕它发展。

YOLO 是深度学习在计算机视觉目标检测任务上的经典工程路线，它关心的是图片里有什么、在哪里。

三者关系可以这样看：

```text
机器学习：从数据中学习规律
深度学习：用神经网络学习复杂规律
Transformer：深度学习中处理文本/序列的核心结构
YOLO：深度学习中处理目标检测的经典结构
```

## 7. 本节要掌握的最小闭环

学完这一讲，只要记住这条主线：

```text
数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好的预测
```

这就是训练的基本闭环。

## 8. 理解检查

请尝试回答：

1. 机器学习和传统程序最大的区别是什么？
2. 为什么训练时需要真实答案，而推理时不需要？
3. “损失函数”在训练中起什么作用？
4. 深度学习为什么适合图片、文本、语音这类复杂数据？
5. Transformer 和 YOLO 分别主要处理什么类型的问题？