返回

audit-2026-06-05.md

6.0 KB · MD · 2026-06-05 05:32

文档审计记录

日期：2026-06-05
审计对象：当前 machine-learning 专题文档
结论：原文档方向正确，适合作为第一轮入门路线，但不够覆盖 2026 年现代大模型知识图谱，需要扩展为“核心三主线 + 前沿知识地图”。

1. 核对过的权威资料

本次核对优先使用官方文档和原始论文：

scikit-learn 官方文档：监督学习、无监督学习、模型选择、评估、常见陷阱、模型持久化等仍是传统 ML 学习主线。
PyTorch SDPA 教程：Transformer 实践已围绕 scaled_dot_product_attention、torch.compile、FlashAttention 等高性能路径展开。
Hugging Face Transformers 文档：现代模型已覆盖文本、视觉、音频、视频、多模态，并包含推理、训练、量化、PEFT、分布式训练等工程主题。
Hugging Face PEFT 文档：LoRA、adapter、prompt tuning、量化结合微调已经是消费级硬件上理解和使用大模型的重要主题。
Hugging Face Transformers 量化文档：量化是降低模型内存和推理成本的核心入口之一。
Ultralytics Models 文档：截至 2026-06-05，官方文档显示 YOLO26 是最新 Ultralytics YOLO 模型，YOLO11 仍是稳定生产选择之一；YOLO26 支持端到端 NMS-free 推理，并扩展到检测、分割、分类、姿态、OBB、开放词汇等任务。
Ultralytics YOLO26 文档：用于校准 YOLO26 的定位、性能指标和入门推理示例。
原始论文：Transformer、LoRA、RAG、DPO、ViT、Latent Diffusion、Switch Transformer、Mamba、YOLO-World、SAM 3 等用于校准知识边界。

2. 原文档没有明显错误的地方

将第一轮分成机器学习/深度学习、Transformer、YOLO 三块是合理的。
不把训练大模型作为第一轮必修是正确的，符合当前设备约束。
“先讲直觉，再讲结构，再用轻量例子验证”的教学方式适合体系化入门。
三个主文件夹的划分清晰，后续维护成本低。

3. 需要补充的缺口

机器学习与深度学习基础

原文档缺少：

数据泄漏、数据划分、交叉验证、模型选择。
特征工程、归一化、pipeline、常见实验陷阱。
评估指标体系：分类、回归、不均衡数据、概率校准。
现代训练常识：学习率、初始化、归一化、优化器、正则化、迁移学习。
自监督学习、对比学习、表示学习的入口概念。

Transformer 与现代大模型

原文档缺少：

tokenizer 的具体类型：BPE、WordPiece、Unigram、byte-level tokenization。
位置编码的现代路线：绝对位置、相对位置、RoPE、ALiBi。
causal mask、padding mask、attention 复杂度。
KV cache、prefill/decode、batching、流式生成。
解码策略：greedy、beam search、top-k、top-p、temperature。
预训练、SFT、RLHF、DPO 的完整训练后流程。
PEFT、LoRA、QLoRA、adapter、prompt tuning。
RAG 的检索、向量库、重排、上下文拼接和评估。
量化、蒸馏、推理引擎、FlashAttention、vLLM/TGI/llama.cpp 等部署概念。
MoE、长上下文、稀疏注意力、Mamba/SSM 等前沿结构。
多模态模型：VLM、图文对齐、视觉 token、音频/视频模型。
大模型评估、安全、幻觉、隐私、版权、偏见等风险维度。

YOLO 与目标检测

原文档缺少：

YOLO 最新版本脉络：YOLO26、YOLO11、YOLOv10 的 NMS-free 趋势。
YOLO 支持任务不止检测，还包括实例分割、语义分割、分类、姿态估计、旋转框 OBB、开放词汇检测。
开放词汇视觉：YOLO-World、YOLOE。
邻近技术：RT-DETR、SAM/SAM 3、视觉基础模型。
数据标注格式、增强、类别不均衡、小目标检测。
部署路径：ONNX、TensorRT、OpenVINO、CoreML、TFLite、边缘设备。

现代大模型完整知识图谱

如果目标是“最新、全面”，只学三块还不够。需要至少知道这些内容的位置：

扩散模型与图像/视频生成：DDPM、Latent Diffusion、Diffusers。
视觉 Transformer 与视觉语言模型：ViT、CLIP 思想、VLM。
智能体与工具调用：模型、工具、记忆、检索、规划。
模型评估与安全：benchmark、红队测试、幻觉、鲁棒性。
工程系统：数据治理、实验管理、部署、监控、成本和延迟。

4. 修订原则

后续文档按下面原则维护：

第一轮：仍然只深讲三块，保证学得动。
第一轮中插入“前沿指路牌”，知道新技术属于哪一层，但不展开训练和复现。
第二轮：补齐 LLM 训练后流程、RAG、推理部署、多模态。
第三轮：再进入前沿论文、视觉基础模型、扩散模型、智能体、工程系统。

5. 本次采取的文档更新

将学习目标与大纲升级到第一轮 v2。
在 Transformer 模块加入 LLM 生命周期、推理优化、PEFT、RAG、MoE、长上下文、多模态入口。
在 YOLO 模块加入 YOLO26、NMS-free、开放词汇检测、多任务视觉和部署路径。
在 ML/DL 模块加入数据泄漏、交叉验证、特征工程、评估指标、自监督学习入口。
保留三文件夹主结构，不额外拆散当前学习节奏。