学习目标与大纲
版本:第一轮 v2
日期:2026-06-05
1. 总目标
本专题的目标是体系化理解现代大模型相关知识。第一轮不以训练复杂大模型为目标,而是建立一套能持续扩展的知识框架。
第一轮结束后,应当能做到:
- 说清楚机器学习模型如何从数据中学习规律。
- 理解训练、推理、损失函数、梯度下降、过拟合、泛化和评估指标。
- 看懂基础神经网络、CNN、Transformer block、YOLO 检测流程的大致结构。
- 理解 Transformer 为什么成为现代大语言模型的核心结构。
- 理解大模型从预训练到推理应用的大致生命周期。
- 理解 YOLO 如何从图片中预测物体类别、置信度和位置。
- 知道多模态、扩散模型、RAG、LoRA、DPO、MoE、量化、视觉基础模型分别属于知识图谱中的哪个位置。
2. 学习边界
第一轮重点:
- 重理解,轻训练。
- 重结构,轻复杂公式推导。
- 重输入输出,轻底层硬件优化。
- 使用小例子、手算、图示、伪代码和预训练模型推理辅助理解。
- 把前沿技术作为“知识地图”纳入,但不要求复现论文。
第一轮不重点做:
- 不训练大语言模型。
- 不做大规模分布式训练。
- 不深入 CUDA、算子内核、推理引擎源码。
- 不把论文复现作为主要目标。
- 不要求复杂 GPU 环境。
3. 教学方式
后续每节课默认由我来讲,按下面结构推进:
- 直觉解释:这个概念为什么出现,解决什么问题。
- 结构拆解:输入是什么,输出是什么,中间发生什么。
- 最小例子:用表格、小矩阵、小代码或预训练模型解释。
- 易混点:指出最常见的误解。
- 理解检查:用 3 到 5 个问题确认是否掌握。
- 复习记录:留下本节要点,方便之后回看。
4. 第一轮三大主线
主线一:机器学习与深度学习基础
核心问题:模型到底怎样从数据里学到规律?
要掌握:
- 数据、样本、特征、标签
- 监督学习、无监督学习、半监督学习
- 分类、回归、聚类、降维
- 模型、参数、预测
- 损失函数与优化目标
- 梯度下降、学习率、优化器
- 训练集、验证集、测试集、交叉验证
- 数据泄漏、过拟合、欠拟合、泛化
- 特征工程、归一化、pipeline
- 分类、回归、不均衡数据的评估指标
- 神经网络、激活函数、反向传播
- CNN、BatchNorm、Dropout、正则化、迁移学习
- 自监督学习、对比学习、表示学习的入口概念
阶段目标:
- 能解释训练闭环:
数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好预测。 - 能看懂一个简单 PyTorch 训练循环。
- 能判断一个实验是否存在数据泄漏或评估不严谨。
- 能理解 CNN 为什么适合图像。
主线二:Transformer 与现代大模型
核心问题:为什么现代大语言模型大多建立在 Transformer 上?
要掌握:
- token、tokenizer、BPE、WordPiece、Unigram、byte-level tokenization
- embedding 与词向量空间
- 位置表示:绝对位置、相对位置、RoPE、ALiBi
- Query、Key、Value
- Self-Attention、Cross-Attention、Causal Mask、Padding Mask
- Multi-Head Attention
- Residual connection、LayerNorm、Feed Forward Network
- Encoder、Decoder、encoder-only、decoder-only、encoder-decoder
- GPT 类模型的 next-token prediction
- KV cache、prefill、decode、streaming
- 解码策略:greedy、beam search、top-k、top-p、temperature
- 预训练、SFT、RLHF、DPO
- PEFT、LoRA、QLoRA、adapter、prompt tuning
- RAG:检索、向量库、重排、上下文拼接、评估
- 量化、蒸馏、FlashAttention、推理引擎、吞吐、延迟
- MoE、长上下文、稀疏注意力、Mamba/SSM 的入口概念
- 多模态模型:图文、语音、视频、视觉语言模型
- 大模型评估、安全、幻觉、隐私、偏见和鲁棒性
阶段目标:
- 能用自己的话解释 attention 在做什么。
- 能用小矩阵走通一次 Q/K/V attention 计算。
- 能画出一个 Transformer block 的主要组成。
- 能解释 decoder-only 模型如何根据前文预测后文。
- 能说清楚预训练、SFT、DPO、LoRA、RAG、量化分别解决什么问题。
主线三:YOLO 与目标检测
核心问题:模型怎样在图片中找出物体,并给出类别和位置?
要掌握:
- 图像分类、定位、目标检测、实例分割、语义分割的区别
- 图像张量、CNN backbone、特征图
- bounding box、坐标表示、anchor/anchor-free
- IoU、GIoU/DIoU/CIoU 的入口概念
- NMS 与 NMS-free 检测
- precision、recall、AP、mAP
- YOLO 的一次性检测思想
- backbone、neck、head
- YOLOv1 到 YOLOv10 的关键演进
- YOLO11 与 YOLO26 的位置:稳定生产和最新 Ultralytics 路线
- YOLO26 的端到端 NMS-free、边缘部署和多任务支持
- YOLO-World、YOLOE:开放词汇检测入口
- RT-DETR:检测 Transformer 入口
- SAM/SAM 3:视觉基础模型与分割入口
- 数据标注格式、数据增强、小目标、类别不均衡
- ONNX、TensorRT、OpenVINO、CoreML、TFLite 等部署路径
阶段目标:
- 能解释 YOLO 的输入是一张图,输出是一组类别、置信度和位置框。
- 能说明 IoU、NMS、mAP 分别解决什么问题。
- 能看懂一次预训练 YOLO 推理的结果。
- 能理解 YOLO 为什么适合实时目标检测。
- 能知道 YOLO 与 RT-DETR、SAM、开放词汇检测的关系。
5. 现代大模型知识地图
第一轮仍以三大主线为主,但要知道下面内容的位置:
| 方向 | 第一轮要求 | 后续是否深讲 |
|---|---|---|
| 大语言模型 | 理解 Transformer、decoder-only、训练后流程、推理 | 是 |
| RAG | 理解检索增强生成的组件和作用 | 是 |
| PEFT/LoRA | 理解为什么能低成本微调 | 是 |
| DPO/RLHF | 理解偏好对齐的基本位置 | 是 |
| MoE | 理解稀疏专家模型为什么能扩展容量 | 第二轮 |
| 长上下文 | 理解 attention 成本、KV cache、位置编码 | 第二轮 |
| 多模态/VLM | 理解图文模型怎样连接视觉和语言 | 第二轮 |
| 扩散模型 | 知道 DDPM、Latent Diffusion、Diffusers 的位置 | 第三轮 |
| 视觉基础模型 | 知道 ViT、SAM、SAM 3、开放词汇检测 | 第二轮 |
| 智能体 | 知道工具调用、记忆、规划、环境反馈 | 第三轮 |
| 推理部署 | 知道量化、ONNX、TensorRT、vLLM、llama.cpp 等概念 | 第二轮 |
| 安全评估 | 知道幻觉、偏见、隐私、鲁棒性、红队测试 | 第二轮 |
6. 第一轮课程大纲
第一部分:机器学习与深度学习基础
- 什么是机器学习
- 数据、特征与标签
- 分类、回归、聚类和降维
- 模型、参数与预测
- 损失函数:模型错在哪里
- 梯度下降:模型怎样变好
- 训练集、验证集、测试集与交叉验证
- 数据泄漏、过拟合、欠拟合与泛化
- 常见评估指标:accuracy、precision、recall、F1、AUC、MSE
- 神经网络的基本结构
- 反向传播的直觉
- CNN:为什么适合图像
- 现代训练常识:优化器、学习率、归一化、正则化
- 自监督学习和表示学习入口
第二部分:Transformer 与现代大模型
- 文本怎样进入模型:token 与 tokenizer
- embedding:把符号变成向量
- 位置表示:从正弦位置编码到 RoPE
- Attention 要解决什么问题
- Q/K/V 的直觉
- 手算一次 Self-Attention
- Multi-Head Attention
- Transformer block:Attention、FFN、残差、LayerNorm
- Encoder、Decoder 与 decoder-only
- GPT 类模型的 next-token prediction
- Causal mask、KV cache 与流式生成
- 解码策略:temperature、top-k、top-p
- 预训练、SFT、RLHF、DPO
- LoRA、QLoRA、PEFT
- RAG:模型外部知识怎样进入上下文
- 量化、推理加速与部署入口
- MoE、长上下文、Mamba/SSM、多模态入口
第三部分:YOLO 与目标检测
- 图像分类和目标检测的区别
- bounding box 与坐标表示
- IoU:两个框有多接近
- NMS 与 NMS-free 检测
- precision、recall、AP、mAP
- YOLO 的核心思想
- YOLO 的 backbone、neck、head
- YOLO 版本演进:v1、v3、v5、v8、v10、YOLO11、YOLO26
- YOLO26:端到端、边缘部署、多任务
- 使用预训练 YOLO 做图片检测
- 开放词汇检测:YOLO-World、YOLOE
- 邻近模型:RT-DETR、SAM、SAM 3
- 数据标注、增强和常见训练问题
- 模型导出与部署概念
7. 阶段验收标准
完成机器学习与深度学习基础后:
- 能解释训练和推理的区别。
- 能解释损失函数和梯度下降的关系。
- 能判断一个模型可能是过拟合还是欠拟合。
- 能发现简单的数据泄漏问题。
- 能看懂一个简单神经网络训练循环。
完成 Transformer 后:
- 能解释 token、embedding、attention、FFN、LayerNorm、residual 的作用。
- 能用简单例子说明 Q/K/V attention。
- 能解释 decoder-only 大模型的输入输出逻辑。
- 能知道预训练、SFT、DPO、LoRA、RAG、量化分别属于什么层面。
- 能解释为什么 KV cache 会提升自回归推理效率。
完成 YOLO 后:
- 能解释目标检测和图像分类的区别。
- 能解释 bounding box、IoU、NMS、mAP。
- 能描述 YOLO 从图片到检测结果的大致流程。
- 能使用或读懂预训练 YOLO 的推理示例。
- 能说清楚 YOLO、RT-DETR、SAM、开放词汇检测的大致区别。
8. 复习与记录规则
每完成一节课,至少留下三类内容:
- 本节要点:3 到 8 条。
- 易混点:容易误解的地方。
- 理解检查:问题和你的回答。
如果后面学习时忘记方向,优先回到这份文档确认当前属于哪个模块、哪个阶段、要达成什么目标。