文档审计记录
日期:2026-06-05
审计对象:当前 machine-learning 专题文档
结论:原文档方向正确,适合作为第一轮入门路线,但不够覆盖 2026 年现代大模型知识图谱,需要扩展为“核心三主线 + 前沿知识地图”。
1. 核对过的权威资料
本次核对优先使用官方文档和原始论文:
- scikit-learn 官方文档:监督学习、无监督学习、模型选择、评估、常见陷阱、模型持久化等仍是传统 ML 学习主线。
- PyTorch SDPA 教程:Transformer 实践已围绕
scaled_dot_product_attention、torch.compile、FlashAttention 等高性能路径展开。 - Hugging Face Transformers 文档:现代模型已覆盖文本、视觉、音频、视频、多模态,并包含推理、训练、量化、PEFT、分布式训练等工程主题。
- Hugging Face PEFT 文档:LoRA、adapter、prompt tuning、量化结合微调已经是消费级硬件上理解和使用大模型的重要主题。
- Hugging Face Transformers 量化文档:量化是降低模型内存和推理成本的核心入口之一。
- Ultralytics Models 文档:截至 2026-06-05,官方文档显示 YOLO26 是最新 Ultralytics YOLO 模型,YOLO11 仍是稳定生产选择之一;YOLO26 支持端到端 NMS-free 推理,并扩展到检测、分割、分类、姿态、OBB、开放词汇等任务。
- Ultralytics YOLO26 文档:用于校准 YOLO26 的定位、性能指标和入门推理示例。
- 原始论文:Transformer、LoRA、RAG、DPO、ViT、Latent Diffusion、Switch Transformer、Mamba、YOLO-World、SAM 3 等用于校准知识边界。
2. 原文档没有明显错误的地方
- 将第一轮分成机器学习/深度学习、Transformer、YOLO 三块是合理的。
- 不把训练大模型作为第一轮必修是正确的,符合当前设备约束。
- “先讲直觉,再讲结构,再用轻量例子验证”的教学方式适合体系化入门。
- 三个主文件夹的划分清晰,后续维护成本低。
3. 需要补充的缺口
机器学习与深度学习基础
原文档缺少:
- 数据泄漏、数据划分、交叉验证、模型选择。
- 特征工程、归一化、pipeline、常见实验陷阱。
- 评估指标体系:分类、回归、不均衡数据、概率校准。
- 现代训练常识:学习率、初始化、归一化、优化器、正则化、迁移学习。
- 自监督学习、对比学习、表示学习的入口概念。
Transformer 与现代大模型
原文档缺少:
- tokenizer 的具体类型:BPE、WordPiece、Unigram、byte-level tokenization。
- 位置编码的现代路线:绝对位置、相对位置、RoPE、ALiBi。
- causal mask、padding mask、attention 复杂度。
- KV cache、prefill/decode、batching、流式生成。
- 解码策略:greedy、beam search、top-k、top-p、temperature。
- 预训练、SFT、RLHF、DPO 的完整训练后流程。
- PEFT、LoRA、QLoRA、adapter、prompt tuning。
- RAG 的检索、向量库、重排、上下文拼接和评估。
- 量化、蒸馏、推理引擎、FlashAttention、vLLM/TGI/llama.cpp 等部署概念。
- MoE、长上下文、稀疏注意力、Mamba/SSM 等前沿结构。
- 多模态模型:VLM、图文对齐、视觉 token、音频/视频模型。
- 大模型评估、安全、幻觉、隐私、版权、偏见等风险维度。
YOLO 与目标检测
原文档缺少:
- YOLO 最新版本脉络:YOLO26、YOLO11、YOLOv10 的 NMS-free 趋势。
- YOLO 支持任务不止检测,还包括实例分割、语义分割、分类、姿态估计、旋转框 OBB、开放词汇检测。
- 开放词汇视觉:YOLO-World、YOLOE。
- 邻近技术:RT-DETR、SAM/SAM 3、视觉基础模型。
- 数据标注格式、增强、类别不均衡、小目标检测。
- 部署路径:ONNX、TensorRT、OpenVINO、CoreML、TFLite、边缘设备。
现代大模型完整知识图谱
如果目标是“最新、全面”,只学三块还不够。需要至少知道这些内容的位置:
- 扩散模型与图像/视频生成:DDPM、Latent Diffusion、Diffusers。
- 视觉 Transformer 与视觉语言模型:ViT、CLIP 思想、VLM。
- 智能体与工具调用:模型、工具、记忆、检索、规划。
- 模型评估与安全:benchmark、红队测试、幻觉、鲁棒性。
- 工程系统:数据治理、实验管理、部署、监控、成本和延迟。
4. 修订原则
后续文档按下面原则维护:
- 第一轮:仍然只深讲三块,保证学得动。
- 第一轮中插入“前沿指路牌”,知道新技术属于哪一层,但不展开训练和复现。
- 第二轮:补齐 LLM 训练后流程、RAG、推理部署、多模态。
- 第三轮:再进入前沿论文、视觉基础模型、扩散模型、智能体、工程系统。
5. 本次采取的文档更新
- 将学习目标与大纲升级到第一轮 v2。
- 在 Transformer 模块加入 LLM 生命周期、推理优化、PEFT、RAG、MoE、长上下文、多模态入口。
- 在 YOLO 模块加入 YOLO26、NMS-free、开放词汇检测、多任务视觉和部署路径。
- 在 ML/DL 模块加入数据泄漏、交叉验证、特征工程、评估指标、自监督学习入口。
- 保留三文件夹主结构,不额外拆散当前学习节奏。