返回

audit-2026-06-05.md

6.0 KB · MD · 2026-06-05 05:32

文档审计记录

日期:2026-06-05
审计对象:当前 machine-learning 专题文档
结论:原文档方向正确,适合作为第一轮入门路线,但不够覆盖 2026 年现代大模型知识图谱,需要扩展为“核心三主线 + 前沿知识地图”。

1. 核对过的权威资料

本次核对优先使用官方文档和原始论文:

2. 原文档没有明显错误的地方

  • 将第一轮分成机器学习/深度学习、Transformer、YOLO 三块是合理的。
  • 不把训练大模型作为第一轮必修是正确的,符合当前设备约束。
  • “先讲直觉,再讲结构,再用轻量例子验证”的教学方式适合体系化入门。
  • 三个主文件夹的划分清晰,后续维护成本低。

3. 需要补充的缺口

机器学习与深度学习基础

原文档缺少:

  • 数据泄漏、数据划分、交叉验证、模型选择。
  • 特征工程、归一化、pipeline、常见实验陷阱。
  • 评估指标体系:分类、回归、不均衡数据、概率校准。
  • 现代训练常识:学习率、初始化、归一化、优化器、正则化、迁移学习。
  • 自监督学习、对比学习、表示学习的入口概念。

Transformer 与现代大模型

原文档缺少:

  • tokenizer 的具体类型:BPE、WordPiece、Unigram、byte-level tokenization。
  • 位置编码的现代路线:绝对位置、相对位置、RoPE、ALiBi。
  • causal mask、padding mask、attention 复杂度。
  • KV cache、prefill/decode、batching、流式生成。
  • 解码策略:greedy、beam search、top-k、top-p、temperature。
  • 预训练、SFT、RLHF、DPO 的完整训练后流程。
  • PEFT、LoRA、QLoRA、adapter、prompt tuning。
  • RAG 的检索、向量库、重排、上下文拼接和评估。
  • 量化、蒸馏、推理引擎、FlashAttention、vLLM/TGI/llama.cpp 等部署概念。
  • MoE、长上下文、稀疏注意力、Mamba/SSM 等前沿结构。
  • 多模态模型:VLM、图文对齐、视觉 token、音频/视频模型。
  • 大模型评估、安全、幻觉、隐私、版权、偏见等风险维度。

YOLO 与目标检测

原文档缺少:

  • YOLO 最新版本脉络:YOLO26、YOLO11、YOLOv10 的 NMS-free 趋势。
  • YOLO 支持任务不止检测,还包括实例分割、语义分割、分类、姿态估计、旋转框 OBB、开放词汇检测。
  • 开放词汇视觉:YOLO-World、YOLOE。
  • 邻近技术:RT-DETR、SAM/SAM 3、视觉基础模型。
  • 数据标注格式、增强、类别不均衡、小目标检测。
  • 部署路径:ONNX、TensorRT、OpenVINO、CoreML、TFLite、边缘设备。

现代大模型完整知识图谱

如果目标是“最新、全面”,只学三块还不够。需要至少知道这些内容的位置:

  • 扩散模型与图像/视频生成:DDPM、Latent Diffusion、Diffusers。
  • 视觉 Transformer 与视觉语言模型:ViT、CLIP 思想、VLM。
  • 智能体与工具调用:模型、工具、记忆、检索、规划。
  • 模型评估与安全:benchmark、红队测试、幻觉、鲁棒性。
  • 工程系统:数据治理、实验管理、部署、监控、成本和延迟。

4. 修订原则

后续文档按下面原则维护:

  • 第一轮:仍然只深讲三块,保证学得动。
  • 第一轮中插入“前沿指路牌”,知道新技术属于哪一层,但不展开训练和复现。
  • 第二轮:补齐 LLM 训练后流程、RAG、推理部署、多模态。
  • 第三轮:再进入前沿论文、视觉基础模型、扩散模型、智能体、工程系统。

5. 本次采取的文档更新

  • 将学习目标与大纲升级到第一轮 v2。
  • 在 Transformer 模块加入 LLM 生命周期、推理优化、PEFT、RAG、MoE、长上下文、多模态入口。
  • 在 YOLO 模块加入 YOLO26、NMS-free、开放词汇检测、多任务视觉和部署路径。
  • 在 ML/DL 模块加入数据泄漏、交叉验证、特征工程、评估指标、自监督学习入口。
  • 保留三文件夹主结构,不额外拆散当前学习节奏。