# 文档审计记录

日期：2026-06-05  
审计对象：当前 `machine-learning` 专题文档  
结论：原文档方向正确，适合作为第一轮入门路线，但不够覆盖 2026 年现代大模型知识图谱，需要扩展为“核心三主线 + 前沿知识地图”。

## 1. 核对过的权威资料

本次核对优先使用官方文档和原始论文：

- [scikit-learn 官方文档](https://scikit-learn.org/stable/supervised_learning.html)：监督学习、无监督学习、模型选择、评估、常见陷阱、模型持久化等仍是传统 ML 学习主线。
- [PyTorch SDPA 教程](https://docs.pytorch.org/tutorials/intermediate/scaled_dot_product_attention_tutorial.html)：Transformer 实践已围绕 `scaled_dot_product_attention`、`torch.compile`、FlashAttention 等高性能路径展开。
- [Hugging Face Transformers 文档](https://huggingface.co/docs/transformers/index)：现代模型已覆盖文本、视觉、音频、视频、多模态，并包含推理、训练、量化、PEFT、分布式训练等工程主题。
- [Hugging Face PEFT 文档](https://huggingface.co/docs/peft/index)：LoRA、adapter、prompt tuning、量化结合微调已经是消费级硬件上理解和使用大模型的重要主题。
- [Hugging Face Transformers 量化文档](https://huggingface.co/docs/transformers/quantization/overview)：量化是降低模型内存和推理成本的核心入口之一。
- [Ultralytics Models 文档](https://docs.ultralytics.com/models)：截至 2026-06-05，官方文档显示 YOLO26 是最新 Ultralytics YOLO 模型，YOLO11 仍是稳定生产选择之一；YOLO26 支持端到端 NMS-free 推理，并扩展到检测、分割、分类、姿态、OBB、开放词汇等任务。
- [Ultralytics YOLO26 文档](https://docs.ultralytics.com/models/yolo26)：用于校准 YOLO26 的定位、性能指标和入门推理示例。
- 原始论文：[Transformer](https://arxiv.org/abs/1706.03762)、[LoRA](https://arxiv.org/abs/2106.09685)、[RAG](https://arxiv.org/abs/2005.11401)、[DPO](https://arxiv.org/abs/2305.18290)、[ViT](https://arxiv.org/abs/2010.11929)、[Latent Diffusion](https://arxiv.org/abs/2112.10752)、[Switch Transformer](https://arxiv.org/abs/2101.03961)、[Mamba](https://arxiv.org/abs/2312.00752)、[YOLO-World](https://arxiv.org/abs/2401.17270)、[SAM 3](https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/) 等用于校准知识边界。

## 2. 原文档没有明显错误的地方

- 将第一轮分成机器学习/深度学习、Transformer、YOLO 三块是合理的。
- 不把训练大模型作为第一轮必修是正确的，符合当前设备约束。
- “先讲直觉，再讲结构，再用轻量例子验证”的教学方式适合体系化入门。
- 三个主文件夹的划分清晰，后续维护成本低。

## 3. 需要补充的缺口

### 机器学习与深度学习基础

原文档缺少：

- 数据泄漏、数据划分、交叉验证、模型选择。
- 特征工程、归一化、pipeline、常见实验陷阱。
- 评估指标体系：分类、回归、不均衡数据、概率校准。
- 现代训练常识：学习率、初始化、归一化、优化器、正则化、迁移学习。
- 自监督学习、对比学习、表示学习的入口概念。

### Transformer 与现代大模型

原文档缺少：

- tokenizer 的具体类型：BPE、WordPiece、Unigram、byte-level tokenization。
- 位置编码的现代路线：绝对位置、相对位置、RoPE、ALiBi。
- causal mask、padding mask、attention 复杂度。
- KV cache、prefill/decode、batching、流式生成。
- 解码策略：greedy、beam search、top-k、top-p、temperature。
- 预训练、SFT、RLHF、DPO 的完整训练后流程。
- PEFT、LoRA、QLoRA、adapter、prompt tuning。
- RAG 的检索、向量库、重排、上下文拼接和评估。
- 量化、蒸馏、推理引擎、FlashAttention、vLLM/TGI/llama.cpp 等部署概念。
- MoE、长上下文、稀疏注意力、Mamba/SSM 等前沿结构。
- 多模态模型：VLM、图文对齐、视觉 token、音频/视频模型。
- 大模型评估、安全、幻觉、隐私、版权、偏见等风险维度。

### YOLO 与目标检测

原文档缺少：

- YOLO 最新版本脉络：YOLO26、YOLO11、YOLOv10 的 NMS-free 趋势。
- YOLO 支持任务不止检测，还包括实例分割、语义分割、分类、姿态估计、旋转框 OBB、开放词汇检测。
- 开放词汇视觉：YOLO-World、YOLOE。
- 邻近技术：RT-DETR、SAM/SAM 3、视觉基础模型。
- 数据标注格式、增强、类别不均衡、小目标检测。
- 部署路径：ONNX、TensorRT、OpenVINO、CoreML、TFLite、边缘设备。

### 现代大模型完整知识图谱

如果目标是“最新、全面”，只学三块还不够。需要至少知道这些内容的位置：

- 扩散模型与图像/视频生成：DDPM、Latent Diffusion、Diffusers。
- 视觉 Transformer 与视觉语言模型：ViT、CLIP 思想、VLM。
- 智能体与工具调用：模型、工具、记忆、检索、规划。
- 模型评估与安全：benchmark、红队测试、幻觉、鲁棒性。
- 工程系统：数据治理、实验管理、部署、监控、成本和延迟。

## 4. 修订原则

后续文档按下面原则维护：

- 第一轮：仍然只深讲三块，保证学得动。
- 第一轮中插入“前沿指路牌”，知道新技术属于哪一层，但不展开训练和复现。
- 第二轮：补齐 LLM 训练后流程、RAG、推理部署、多模态。
- 第三轮：再进入前沿论文、视觉基础模型、扩散模型、智能体、工程系统。

## 5. 本次采取的文档更新

- 将学习目标与大纲升级到第一轮 v2。
- 在 Transformer 模块加入 LLM 生命周期、推理优化、PEFT、RAG、MoE、长上下文、多模态入口。
- 在 YOLO 模块加入 YOLO26、NMS-free、开放词汇检测、多任务视觉和部署路径。
- 在 ML/DL 模块加入数据泄漏、交叉验证、特征工程、评估指标、自监督学习入口。
- 保留三文件夹主结构，不额外拆散当前学习节奏。