返回

learning-goals-and-syllabus.md

9.7 KB · MD · 2026-06-05 05:32

学习目标与大纲

版本:第一轮 v2
日期:2026-06-05

1. 总目标

本专题的目标是体系化理解现代大模型相关知识。第一轮不以训练复杂大模型为目标,而是建立一套能持续扩展的知识框架。

第一轮结束后,应当能做到:

  • 说清楚机器学习模型如何从数据中学习规律。
  • 理解训练、推理、损失函数、梯度下降、过拟合、泛化和评估指标。
  • 看懂基础神经网络、CNN、Transformer block、YOLO 检测流程的大致结构。
  • 理解 Transformer 为什么成为现代大语言模型的核心结构。
  • 理解大模型从预训练到推理应用的大致生命周期。
  • 理解 YOLO 如何从图片中预测物体类别、置信度和位置。
  • 知道多模态、扩散模型、RAG、LoRA、DPO、MoE、量化、视觉基础模型分别属于知识图谱中的哪个位置。

2. 学习边界

第一轮重点:

  • 重理解,轻训练。
  • 重结构,轻复杂公式推导。
  • 重输入输出,轻底层硬件优化。
  • 使用小例子、手算、图示、伪代码和预训练模型推理辅助理解。
  • 把前沿技术作为“知识地图”纳入,但不要求复现论文。

第一轮不重点做:

  • 不训练大语言模型。
  • 不做大规模分布式训练。
  • 不深入 CUDA、算子内核、推理引擎源码。
  • 不把论文复现作为主要目标。
  • 不要求复杂 GPU 环境。

3. 教学方式

后续每节课默认由我来讲,按下面结构推进:

  1. 直觉解释:这个概念为什么出现,解决什么问题。
  2. 结构拆解:输入是什么,输出是什么,中间发生什么。
  3. 最小例子:用表格、小矩阵、小代码或预训练模型解释。
  4. 易混点:指出最常见的误解。
  5. 理解检查:用 3 到 5 个问题确认是否掌握。
  6. 复习记录:留下本节要点,方便之后回看。

4. 第一轮三大主线

主线一:机器学习与深度学习基础

核心问题:模型到底怎样从数据里学到规律?

要掌握:

  • 数据、样本、特征、标签
  • 监督学习、无监督学习、半监督学习
  • 分类、回归、聚类、降维
  • 模型、参数、预测
  • 损失函数与优化目标
  • 梯度下降、学习率、优化器
  • 训练集、验证集、测试集、交叉验证
  • 数据泄漏、过拟合、欠拟合、泛化
  • 特征工程、归一化、pipeline
  • 分类、回归、不均衡数据的评估指标
  • 神经网络、激活函数、反向传播
  • CNN、BatchNorm、Dropout、正则化、迁移学习
  • 自监督学习、对比学习、表示学习的入口概念

阶段目标:

  • 能解释训练闭环:数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好预测
  • 能看懂一个简单 PyTorch 训练循环。
  • 能判断一个实验是否存在数据泄漏或评估不严谨。
  • 能理解 CNN 为什么适合图像。

主线二:Transformer 与现代大模型

核心问题:为什么现代大语言模型大多建立在 Transformer 上?

要掌握:

  • token、tokenizer、BPE、WordPiece、Unigram、byte-level tokenization
  • embedding 与词向量空间
  • 位置表示:绝对位置、相对位置、RoPE、ALiBi
  • Query、Key、Value
  • Self-Attention、Cross-Attention、Causal Mask、Padding Mask
  • Multi-Head Attention
  • Residual connection、LayerNorm、Feed Forward Network
  • Encoder、Decoder、encoder-only、decoder-only、encoder-decoder
  • GPT 类模型的 next-token prediction
  • KV cache、prefill、decode、streaming
  • 解码策略:greedy、beam search、top-k、top-p、temperature
  • 预训练、SFT、RLHF、DPO
  • PEFT、LoRA、QLoRA、adapter、prompt tuning
  • RAG:检索、向量库、重排、上下文拼接、评估
  • 量化、蒸馏、FlashAttention、推理引擎、吞吐、延迟
  • MoE、长上下文、稀疏注意力、Mamba/SSM 的入口概念
  • 多模态模型:图文、语音、视频、视觉语言模型
  • 大模型评估、安全、幻觉、隐私、偏见和鲁棒性

阶段目标:

  • 能用自己的话解释 attention 在做什么。
  • 能用小矩阵走通一次 Q/K/V attention 计算。
  • 能画出一个 Transformer block 的主要组成。
  • 能解释 decoder-only 模型如何根据前文预测后文。
  • 能说清楚预训练、SFT、DPO、LoRA、RAG、量化分别解决什么问题。

主线三:YOLO 与目标检测

核心问题:模型怎样在图片中找出物体,并给出类别和位置?

要掌握:

  • 图像分类、定位、目标检测、实例分割、语义分割的区别
  • 图像张量、CNN backbone、特征图
  • bounding box、坐标表示、anchor/anchor-free
  • IoU、GIoU/DIoU/CIoU 的入口概念
  • NMS 与 NMS-free 检测
  • precision、recall、AP、mAP
  • YOLO 的一次性检测思想
  • backbone、neck、head
  • YOLOv1 到 YOLOv10 的关键演进
  • YOLO11 与 YOLO26 的位置:稳定生产和最新 Ultralytics 路线
  • YOLO26 的端到端 NMS-free、边缘部署和多任务支持
  • YOLO-World、YOLOE:开放词汇检测入口
  • RT-DETR:检测 Transformer 入口
  • SAM/SAM 3:视觉基础模型与分割入口
  • 数据标注格式、数据增强、小目标、类别不均衡
  • ONNX、TensorRT、OpenVINO、CoreML、TFLite 等部署路径

阶段目标:

  • 能解释 YOLO 的输入是一张图,输出是一组类别、置信度和位置框。
  • 能说明 IoU、NMS、mAP 分别解决什么问题。
  • 能看懂一次预训练 YOLO 推理的结果。
  • 能理解 YOLO 为什么适合实时目标检测。
  • 能知道 YOLO 与 RT-DETR、SAM、开放词汇检测的关系。

5. 现代大模型知识地图

第一轮仍以三大主线为主,但要知道下面内容的位置:

方向 第一轮要求 后续是否深讲
大语言模型 理解 Transformer、decoder-only、训练后流程、推理
RAG 理解检索增强生成的组件和作用
PEFT/LoRA 理解为什么能低成本微调
DPO/RLHF 理解偏好对齐的基本位置
MoE 理解稀疏专家模型为什么能扩展容量 第二轮
长上下文 理解 attention 成本、KV cache、位置编码 第二轮
多模态/VLM 理解图文模型怎样连接视觉和语言 第二轮
扩散模型 知道 DDPM、Latent Diffusion、Diffusers 的位置 第三轮
视觉基础模型 知道 ViT、SAM、SAM 3、开放词汇检测 第二轮
智能体 知道工具调用、记忆、规划、环境反馈 第三轮
推理部署 知道量化、ONNX、TensorRT、vLLM、llama.cpp 等概念 第二轮
安全评估 知道幻觉、偏见、隐私、鲁棒性、红队测试 第二轮

6. 第一轮课程大纲

第一部分:机器学习与深度学习基础

  1. 什么是机器学习
  2. 数据、特征与标签
  3. 分类、回归、聚类和降维
  4. 模型、参数与预测
  5. 损失函数:模型错在哪里
  6. 梯度下降:模型怎样变好
  7. 训练集、验证集、测试集与交叉验证
  8. 数据泄漏、过拟合、欠拟合与泛化
  9. 常见评估指标:accuracy、precision、recall、F1、AUC、MSE
  10. 神经网络的基本结构
  11. 反向传播的直觉
  12. CNN:为什么适合图像
  13. 现代训练常识:优化器、学习率、归一化、正则化
  14. 自监督学习和表示学习入口

第二部分:Transformer 与现代大模型

  1. 文本怎样进入模型:token 与 tokenizer
  2. embedding:把符号变成向量
  3. 位置表示:从正弦位置编码到 RoPE
  4. Attention 要解决什么问题
  5. Q/K/V 的直觉
  6. 手算一次 Self-Attention
  7. Multi-Head Attention
  8. Transformer block:Attention、FFN、残差、LayerNorm
  9. Encoder、Decoder 与 decoder-only
  10. GPT 类模型的 next-token prediction
  11. Causal mask、KV cache 与流式生成
  12. 解码策略:temperature、top-k、top-p
  13. 预训练、SFT、RLHF、DPO
  14. LoRA、QLoRA、PEFT
  15. RAG:模型外部知识怎样进入上下文
  16. 量化、推理加速与部署入口
  17. MoE、长上下文、Mamba/SSM、多模态入口

第三部分:YOLO 与目标检测

  1. 图像分类和目标检测的区别
  2. bounding box 与坐标表示
  3. IoU:两个框有多接近
  4. NMS 与 NMS-free 检测
  5. precision、recall、AP、mAP
  6. YOLO 的核心思想
  7. YOLO 的 backbone、neck、head
  8. YOLO 版本演进:v1、v3、v5、v8、v10、YOLO11、YOLO26
  9. YOLO26:端到端、边缘部署、多任务
  10. 使用预训练 YOLO 做图片检测
  11. 开放词汇检测:YOLO-World、YOLOE
  12. 邻近模型:RT-DETR、SAM、SAM 3
  13. 数据标注、增强和常见训练问题
  14. 模型导出与部署概念

7. 阶段验收标准

完成机器学习与深度学习基础后:

  • 能解释训练和推理的区别。
  • 能解释损失函数和梯度下降的关系。
  • 能判断一个模型可能是过拟合还是欠拟合。
  • 能发现简单的数据泄漏问题。
  • 能看懂一个简单神经网络训练循环。

完成 Transformer 后:

  • 能解释 token、embedding、attention、FFN、LayerNorm、residual 的作用。
  • 能用简单例子说明 Q/K/V attention。
  • 能解释 decoder-only 大模型的输入输出逻辑。
  • 能知道预训练、SFT、DPO、LoRA、RAG、量化分别属于什么层面。
  • 能解释为什么 KV cache 会提升自回归推理效率。

完成 YOLO 后:

  • 能解释目标检测和图像分类的区别。
  • 能解释 bounding box、IoU、NMS、mAP。
  • 能描述 YOLO 从图片到检测结果的大致流程。
  • 能使用或读懂预训练 YOLO 的推理示例。
  • 能说清楚 YOLO、RT-DETR、SAM、开放词汇检测的大致区别。

8. 复习与记录规则

每完成一节课,至少留下三类内容:

  • 本节要点:3 到 8 条。
  • 易混点:容易误解的地方。
  • 理解检查:问题和你的回答。

如果后面学习时忘记方向,优先回到这份文档确认当前属于哪个模块、哪个阶段、要达成什么目标。