学习目标与大纲

版本：第一轮 v2
日期：2026-06-05

1. 总目标

本专题的目标是体系化理解现代大模型相关知识。第一轮不以训练复杂大模型为目标，而是建立一套能持续扩展的知识框架。

第一轮结束后，应当能做到：

说清楚机器学习模型如何从数据中学习规律。
理解训练、推理、损失函数、梯度下降、过拟合、泛化和评估指标。
看懂基础神经网络、CNN、Transformer block、YOLO 检测流程的大致结构。
理解 Transformer 为什么成为现代大语言模型的核心结构。
理解大模型从预训练到推理应用的大致生命周期。
理解 YOLO 如何从图片中预测物体类别、置信度和位置。
知道多模态、扩散模型、RAG、LoRA、DPO、MoE、量化、视觉基础模型分别属于知识图谱中的哪个位置。

2. 学习边界

第一轮重点：

重理解，轻训练。
重结构，轻复杂公式推导。
重输入输出，轻底层硬件优化。
使用小例子、手算、图示、伪代码和预训练模型推理辅助理解。
把前沿技术作为“知识地图”纳入，但不要求复现论文。

第一轮不重点做：

不训练大语言模型。
不做大规模分布式训练。
不深入 CUDA、算子内核、推理引擎源码。
不把论文复现作为主要目标。
不要求复杂 GPU 环境。

3. 教学方式

后续每节课默认由我来讲，按下面结构推进：

直觉解释：这个概念为什么出现，解决什么问题。
结构拆解：输入是什么，输出是什么，中间发生什么。
最小例子：用表格、小矩阵、小代码或预训练模型解释。
易混点：指出最常见的误解。
理解检查：用 3 到 5 个问题确认是否掌握。
复习记录：留下本节要点，方便之后回看。

4. 第一轮三大主线

主线一：机器学习与深度学习基础

核心问题：模型到底怎样从数据里学到规律？

要掌握：

数据、样本、特征、标签
监督学习、无监督学习、半监督学习
分类、回归、聚类、降维
模型、参数、预测
损失函数与优化目标
梯度下降、学习率、优化器
训练集、验证集、测试集、交叉验证
数据泄漏、过拟合、欠拟合、泛化
特征工程、归一化、pipeline
分类、回归、不均衡数据的评估指标
神经网络、激活函数、反向传播
CNN、BatchNorm、Dropout、正则化、迁移学习
自监督学习、对比学习、表示学习的入口概念

阶段目标：

能解释训练闭环：数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好预测。
能看懂一个简单 PyTorch 训练循环。
能判断一个实验是否存在数据泄漏或评估不严谨。
能理解 CNN 为什么适合图像。

主线二：Transformer 与现代大模型

核心问题：为什么现代大语言模型大多建立在 Transformer 上？

要掌握：

token、tokenizer、BPE、WordPiece、Unigram、byte-level tokenization
embedding 与词向量空间
位置表示：绝对位置、相对位置、RoPE、ALiBi
Query、Key、Value
Self-Attention、Cross-Attention、Causal Mask、Padding Mask
Multi-Head Attention
Residual connection、LayerNorm、Feed Forward Network
Encoder、Decoder、encoder-only、decoder-only、encoder-decoder
GPT 类模型的 next-token prediction
KV cache、prefill、decode、streaming
解码策略：greedy、beam search、top-k、top-p、temperature
预训练、SFT、RLHF、DPO
PEFT、LoRA、QLoRA、adapter、prompt tuning
RAG：检索、向量库、重排、上下文拼接、评估
量化、蒸馏、FlashAttention、推理引擎、吞吐、延迟
MoE、长上下文、稀疏注意力、Mamba/SSM 的入口概念
多模态模型：图文、语音、视频、视觉语言模型
大模型评估、安全、幻觉、隐私、偏见和鲁棒性

阶段目标：

能用自己的话解释 attention 在做什么。
能用小矩阵走通一次 Q/K/V attention 计算。
能画出一个 Transformer block 的主要组成。
能解释 decoder-only 模型如何根据前文预测后文。
能说清楚预训练、SFT、DPO、LoRA、RAG、量化分别解决什么问题。

主线三：YOLO 与目标检测

核心问题：模型怎样在图片中找出物体，并给出类别和位置？

要掌握：

图像分类、定位、目标检测、实例分割、语义分割的区别
图像张量、CNN backbone、特征图
bounding box、坐标表示、anchor/anchor-free
IoU、GIoU/DIoU/CIoU 的入口概念
NMS 与 NMS-free 检测
precision、recall、AP、mAP
YOLO 的一次性检测思想
backbone、neck、head
YOLOv1 到 YOLOv10 的关键演进
YOLO11 与 YOLO26 的位置：稳定生产和最新 Ultralytics 路线
YOLO26 的端到端 NMS-free、边缘部署和多任务支持
YOLO-World、YOLOE：开放词汇检测入口
RT-DETR：检测 Transformer 入口
SAM/SAM 3：视觉基础模型与分割入口
数据标注格式、数据增强、小目标、类别不均衡
ONNX、TensorRT、OpenVINO、CoreML、TFLite 等部署路径

阶段目标：

能解释 YOLO 的输入是一张图，输出是一组类别、置信度和位置框。
能说明 IoU、NMS、mAP 分别解决什么问题。
能看懂一次预训练 YOLO 推理的结果。
能理解 YOLO 为什么适合实时目标检测。
能知道 YOLO 与 RT-DETR、SAM、开放词汇检测的关系。

5. 现代大模型知识地图

第一轮仍以三大主线为主，但要知道下面内容的位置：

方向	第一轮要求	后续是否深讲
大语言模型	理解 Transformer、decoder-only、训练后流程、推理	是
RAG	理解检索增强生成的组件和作用	是
PEFT/LoRA	理解为什么能低成本微调	是
DPO/RLHF	理解偏好对齐的基本位置	是
MoE	理解稀疏专家模型为什么能扩展容量	第二轮
长上下文	理解 attention 成本、KV cache、位置编码	第二轮
多模态/VLM	理解图文模型怎样连接视觉和语言	第二轮
扩散模型	知道 DDPM、Latent Diffusion、Diffusers 的位置	第三轮
视觉基础模型	知道 ViT、SAM、SAM 3、开放词汇检测	第二轮
智能体	知道工具调用、记忆、规划、环境反馈	第三轮
推理部署	知道量化、ONNX、TensorRT、vLLM、llama.cpp 等概念	第二轮
安全评估	知道幻觉、偏见、隐私、鲁棒性、红队测试	第二轮

6. 第一轮课程大纲

第一部分：机器学习与深度学习基础

什么是机器学习
数据、特征与标签
分类、回归、聚类和降维
模型、参数与预测
损失函数：模型错在哪里
梯度下降：模型怎样变好
训练集、验证集、测试集与交叉验证
数据泄漏、过拟合、欠拟合与泛化
常见评估指标：accuracy、precision、recall、F1、AUC、MSE
神经网络的基本结构
反向传播的直觉
CNN：为什么适合图像
现代训练常识：优化器、学习率、归一化、正则化
自监督学习和表示学习入口

第二部分：Transformer 与现代大模型

文本怎样进入模型：token 与 tokenizer
embedding：把符号变成向量
位置表示：从正弦位置编码到 RoPE
Attention 要解决什么问题
Q/K/V 的直觉
手算一次 Self-Attention
Multi-Head Attention
Transformer block：Attention、FFN、残差、LayerNorm
Encoder、Decoder 与 decoder-only
GPT 类模型的 next-token prediction
Causal mask、KV cache 与流式生成
解码策略：temperature、top-k、top-p
预训练、SFT、RLHF、DPO
LoRA、QLoRA、PEFT
RAG：模型外部知识怎样进入上下文
量化、推理加速与部署入口
MoE、长上下文、Mamba/SSM、多模态入口

第三部分：YOLO 与目标检测

图像分类和目标检测的区别
bounding box 与坐标表示
IoU：两个框有多接近
NMS 与 NMS-free 检测
precision、recall、AP、mAP
YOLO 的核心思想
YOLO 的 backbone、neck、head
YOLO 版本演进：v1、v3、v5、v8、v10、YOLO11、YOLO26
YOLO26：端到端、边缘部署、多任务
使用预训练 YOLO 做图片检测
开放词汇检测：YOLO-World、YOLOE
邻近模型：RT-DETR、SAM、SAM 3
数据标注、增强和常见训练问题
模型导出与部署概念

7. 阶段验收标准

完成机器学习与深度学习基础后：

能解释训练和推理的区别。
能解释损失函数和梯度下降的关系。
能判断一个模型可能是过拟合还是欠拟合。
能发现简单的数据泄漏问题。
能看懂一个简单神经网络训练循环。

完成 Transformer 后：

能解释 token、embedding、attention、FFN、LayerNorm、residual 的作用。
能用简单例子说明 Q/K/V attention。
能解释 decoder-only 大模型的输入输出逻辑。
能知道预训练、SFT、DPO、LoRA、RAG、量化分别属于什么层面。
能解释为什么 KV cache 会提升自回归推理效率。

完成 YOLO 后：

能解释目标检测和图像分类的区别。
能解释 bounding box、IoU、NMS、mAP。
能描述 YOLO 从图片到检测结果的大致流程。
能使用或读懂预训练 YOLO 的推理示例。
能说清楚 YOLO、RT-DETR、SAM、开放词汇检测的大致区别。

8. 复习与记录规则

每完成一节课，至少留下三类内容：

本节要点：3 到 8 条。
易混点：容易误解的地方。
理解检查：问题和你的回答。

如果后面学习时忘记方向，优先回到这份文档确认当前属于哪个模块、哪个阶段、要达成什么目标。