# 学习目标与大纲

版本：第一轮 v2  
日期：2026-06-05

## 1. 总目标

本专题的目标是体系化理解现代大模型相关知识。第一轮不以训练复杂大模型为目标，而是建立一套能持续扩展的知识框架。

第一轮结束后，应当能做到：

- 说清楚机器学习模型如何从数据中学习规律。
- 理解训练、推理、损失函数、梯度下降、过拟合、泛化和评估指标。
- 看懂基础神经网络、CNN、Transformer block、YOLO 检测流程的大致结构。
- 理解 Transformer 为什么成为现代大语言模型的核心结构。
- 理解大模型从预训练到推理应用的大致生命周期。
- 理解 YOLO 如何从图片中预测物体类别、置信度和位置。
- 知道多模态、扩散模型、RAG、LoRA、DPO、MoE、量化、视觉基础模型分别属于知识图谱中的哪个位置。

## 2. 学习边界

第一轮重点：

- 重理解，轻训练。
- 重结构，轻复杂公式推导。
- 重输入输出，轻底层硬件优化。
- 使用小例子、手算、图示、伪代码和预训练模型推理辅助理解。
- 把前沿技术作为“知识地图”纳入，但不要求复现论文。

第一轮不重点做：

- 不训练大语言模型。
- 不做大规模分布式训练。
- 不深入 CUDA、算子内核、推理引擎源码。
- 不把论文复现作为主要目标。
- 不要求复杂 GPU 环境。

## 3. 教学方式

后续每节课默认由我来讲，按下面结构推进：

1. 直觉解释：这个概念为什么出现，解决什么问题。
2. 结构拆解：输入是什么，输出是什么，中间发生什么。
3. 最小例子：用表格、小矩阵、小代码或预训练模型解释。
4. 易混点：指出最常见的误解。
5. 理解检查：用 3 到 5 个问题确认是否掌握。
6. 复习记录：留下本节要点，方便之后回看。

## 4. 第一轮三大主线

### 主线一：机器学习与深度学习基础

核心问题：模型到底怎样从数据里学到规律？

要掌握：

- 数据、样本、特征、标签
- 监督学习、无监督学习、半监督学习
- 分类、回归、聚类、降维
- 模型、参数、预测
- 损失函数与优化目标
- 梯度下降、学习率、优化器
- 训练集、验证集、测试集、交叉验证
- 数据泄漏、过拟合、欠拟合、泛化
- 特征工程、归一化、pipeline
- 分类、回归、不均衡数据的评估指标
- 神经网络、激活函数、反向传播
- CNN、BatchNorm、Dropout、正则化、迁移学习
- 自监督学习、对比学习、表示学习的入口概念

阶段目标：

- 能解释训练闭环：`数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好预测`。
- 能看懂一个简单 PyTorch 训练循环。
- 能判断一个实验是否存在数据泄漏或评估不严谨。
- 能理解 CNN 为什么适合图像。

### 主线二：Transformer 与现代大模型

核心问题：为什么现代大语言模型大多建立在 Transformer 上？

要掌握：

- token、tokenizer、BPE、WordPiece、Unigram、byte-level tokenization
- embedding 与词向量空间
- 位置表示：绝对位置、相对位置、RoPE、ALiBi
- Query、Key、Value
- Self-Attention、Cross-Attention、Causal Mask、Padding Mask
- Multi-Head Attention
- Residual connection、LayerNorm、Feed Forward Network
- Encoder、Decoder、encoder-only、decoder-only、encoder-decoder
- GPT 类模型的 next-token prediction
- KV cache、prefill、decode、streaming
- 解码策略：greedy、beam search、top-k、top-p、temperature
- 预训练、SFT、RLHF、DPO
- PEFT、LoRA、QLoRA、adapter、prompt tuning
- RAG：检索、向量库、重排、上下文拼接、评估
- 量化、蒸馏、FlashAttention、推理引擎、吞吐、延迟
- MoE、长上下文、稀疏注意力、Mamba/SSM 的入口概念
- 多模态模型：图文、语音、视频、视觉语言模型
- 大模型评估、安全、幻觉、隐私、偏见和鲁棒性

阶段目标：

- 能用自己的话解释 attention 在做什么。
- 能用小矩阵走通一次 Q/K/V attention 计算。
- 能画出一个 Transformer block 的主要组成。
- 能解释 decoder-only 模型如何根据前文预测后文。
- 能说清楚预训练、SFT、DPO、LoRA、RAG、量化分别解决什么问题。

### 主线三：YOLO 与目标检测

核心问题：模型怎样在图片中找出物体，并给出类别和位置？

要掌握：

- 图像分类、定位、目标检测、实例分割、语义分割的区别
- 图像张量、CNN backbone、特征图
- bounding box、坐标表示、anchor/anchor-free
- IoU、GIoU/DIoU/CIoU 的入口概念
- NMS 与 NMS-free 检测
- precision、recall、AP、mAP
- YOLO 的一次性检测思想
- backbone、neck、head
- YOLOv1 到 YOLOv10 的关键演进
- YOLO11 与 YOLO26 的位置：稳定生产和最新 Ultralytics 路线
- YOLO26 的端到端 NMS-free、边缘部署和多任务支持
- YOLO-World、YOLOE：开放词汇检测入口
- RT-DETR：检测 Transformer 入口
- SAM/SAM 3：视觉基础模型与分割入口
- 数据标注格式、数据增强、小目标、类别不均衡
- ONNX、TensorRT、OpenVINO、CoreML、TFLite 等部署路径

阶段目标：

- 能解释 YOLO 的输入是一张图，输出是一组类别、置信度和位置框。
- 能说明 IoU、NMS、mAP 分别解决什么问题。
- 能看懂一次预训练 YOLO 推理的结果。
- 能理解 YOLO 为什么适合实时目标检测。
- 能知道 YOLO 与 RT-DETR、SAM、开放词汇检测的关系。

## 5. 现代大模型知识地图

第一轮仍以三大主线为主，但要知道下面内容的位置：

| 方向 | 第一轮要求 | 后续是否深讲 |
|---|---|---|
| 大语言模型 | 理解 Transformer、decoder-only、训练后流程、推理 | 是 |
| RAG | 理解检索增强生成的组件和作用 | 是 |
| PEFT/LoRA | 理解为什么能低成本微调 | 是 |
| DPO/RLHF | 理解偏好对齐的基本位置 | 是 |
| MoE | 理解稀疏专家模型为什么能扩展容量 | 第二轮 |
| 长上下文 | 理解 attention 成本、KV cache、位置编码 | 第二轮 |
| 多模态/VLM | 理解图文模型怎样连接视觉和语言 | 第二轮 |
| 扩散模型 | 知道 DDPM、Latent Diffusion、Diffusers 的位置 | 第三轮 |
| 视觉基础模型 | 知道 ViT、SAM、SAM 3、开放词汇检测 | 第二轮 |
| 智能体 | 知道工具调用、记忆、规划、环境反馈 | 第三轮 |
| 推理部署 | 知道量化、ONNX、TensorRT、vLLM、llama.cpp 等概念 | 第二轮 |
| 安全评估 | 知道幻觉、偏见、隐私、鲁棒性、红队测试 | 第二轮 |

## 6. 第一轮课程大纲

### 第一部分：机器学习与深度学习基础

1. 什么是机器学习
2. 数据、特征与标签
3. 分类、回归、聚类和降维
4. 模型、参数与预测
5. 损失函数：模型错在哪里
6. 梯度下降：模型怎样变好
7. 训练集、验证集、测试集与交叉验证
8. 数据泄漏、过拟合、欠拟合与泛化
9. 常见评估指标：accuracy、precision、recall、F1、AUC、MSE
10. 神经网络的基本结构
11. 反向传播的直觉
12. CNN：为什么适合图像
13. 现代训练常识：优化器、学习率、归一化、正则化
14. 自监督学习和表示学习入口

### 第二部分：Transformer 与现代大模型

1. 文本怎样进入模型：token 与 tokenizer
2. embedding：把符号变成向量
3. 位置表示：从正弦位置编码到 RoPE
4. Attention 要解决什么问题
5. Q/K/V 的直觉
6. 手算一次 Self-Attention
7. Multi-Head Attention
8. Transformer block：Attention、FFN、残差、LayerNorm
9. Encoder、Decoder 与 decoder-only
10. GPT 类模型的 next-token prediction
11. Causal mask、KV cache 与流式生成
12. 解码策略：temperature、top-k、top-p
13. 预训练、SFT、RLHF、DPO
14. LoRA、QLoRA、PEFT
15. RAG：模型外部知识怎样进入上下文
16. 量化、推理加速与部署入口
17. MoE、长上下文、Mamba/SSM、多模态入口

### 第三部分：YOLO 与目标检测

1. 图像分类和目标检测的区别
2. bounding box 与坐标表示
3. IoU：两个框有多接近
4. NMS 与 NMS-free 检测
5. precision、recall、AP、mAP
6. YOLO 的核心思想
7. YOLO 的 backbone、neck、head
8. YOLO 版本演进：v1、v3、v5、v8、v10、YOLO11、YOLO26
9. YOLO26：端到端、边缘部署、多任务
10. 使用预训练 YOLO 做图片检测
11. 开放词汇检测：YOLO-World、YOLOE
12. 邻近模型：RT-DETR、SAM、SAM 3
13. 数据标注、增强和常见训练问题
14. 模型导出与部署概念

## 7. 阶段验收标准

完成机器学习与深度学习基础后：

- 能解释训练和推理的区别。
- 能解释损失函数和梯度下降的关系。
- 能判断一个模型可能是过拟合还是欠拟合。
- 能发现简单的数据泄漏问题。
- 能看懂一个简单神经网络训练循环。

完成 Transformer 后：

- 能解释 token、embedding、attention、FFN、LayerNorm、residual 的作用。
- 能用简单例子说明 Q/K/V attention。
- 能解释 decoder-only 大模型的输入输出逻辑。
- 能知道预训练、SFT、DPO、LoRA、RAG、量化分别属于什么层面。
- 能解释为什么 KV cache 会提升自回归推理效率。

完成 YOLO 后：

- 能解释目标检测和图像分类的区别。
- 能解释 bounding box、IoU、NMS、mAP。
- 能描述 YOLO 从图片到检测结果的大致流程。
- 能使用或读懂预训练 YOLO 的推理示例。
- 能说清楚 YOLO、RT-DETR、SAM、开放词汇检测的大致区别。

## 8. 复习与记录规则

每完成一节课，至少留下三类内容：

- 本节要点：3 到 8 条。
- 易混点：容易误解的地方。
- 理解检查：问题和你的回答。

如果后面学习时忘记方向，优先回到这份文档确认当前属于哪个模块、哪个阶段、要达成什么目标。