# 学习日志

## 2026-06-05：第二讲理解检查完成，第三讲开始

### 当前模块

机器学习与深度学习基础

### 当前课程

第二讲：数据、特征与标签  
第三讲：分类、回归、聚类和降维

### 学生回答记录

学生完成第二讲理解检查。答案已记录到：

- `01-ml-dl-basics/exercises/02-understanding-check.md`

整体判断：第二讲通过。

掌握情况：

- 能正确指出房价预测中的样本、特征和标签。
- 能理解垃圾邮件识别通常属于监督学习。
- 能理解无监督学习不依赖人工标签，但可以发现数据规律。
- 能理解深度学习可以用于监督、无监督和自监督学习。

需要精确化：

- 学生提到大语言模型适合自监督，是因为数据量大、人工标注麻烦、数据有规律。这个方向正确，但需要补充：自监督学习的定义是从数据本身构造训练目标。数据量大是使用自监督的现实动机，不是定义。

### 本次新增讲义

- `01-ml-dl-basics/lessons/03-classification-regression-clustering-dimensionality.md`

### 下一步

等待学生回答第三讲理解检查。通过后进入第四讲：模型、参数与预测。

## 2026-06-05：第二讲开始，数据、特征与标签

### 当前模块

机器学习与深度学习基础

### 当前课程

第二讲：数据、特征与标签

### 本次学习内容

创建并开始讲解第二讲讲义：

- `01-ml-dl-basics/lessons/02-data-features-labels.md`

本讲围绕下面概念展开：

- 样本：一个具体训练例子。
- 特征：模型用来判断或预测的信息。
- 标签：监督学习中提供的正确答案。
- 监督学习：有明确输入和标签。
- 无监督学习：没有人工标签，目标是发现数据结构。
- 自监督学习：不依赖人工额外标注，而是从数据本身构造训练目标。
- 深度学习：使用多层神经网络的方法，可以用于监督、无监督和自监督学习。

### 重点纠错

继续修正上一讲留下的误区：

- 深度学习不是“不需要人工标注”。
- 深度学习描述的是模型结构，监督/无监督/自监督描述的是训练数据和训练目标的组织方式。
- 大语言模型预训练常见的是自监督学习，因为训练目标来自文本本身，例如根据前文预测下一个 token。

### 当前状态

第二讲已经开始，等待学生完成理解检查。

### 下一步

学生回答第二讲理解检查后，继续讲第三讲：分类、回归、聚类和降维。

## 2026-06-05：补充 AGENTS.md 防遗忘机制

### 当前模块

学习流程与记录机制

### 本次问题

学生询问是否需要通过 `AGENT.md` 来确保 skills 可以执行。

### 结论

- 不需要依赖 `AGENT.md` 来“确保 skill 执行”。
- skill 的触发主要依赖 Codex 的 skill 发现机制和 skill metadata。
- 仓库级指令更适合使用 `AGENTS.md`，它可以把本项目的固定工作流程写在仓库根目录。
- `AGENTS.md` 不能强制 skill 加载，但可以在 skill 没有自动加载时，要求 agent 仍然遵循学习记录流程。

### 已采取动作

- 新增 `AGENTS.md`。
- 更新 `session-recording-policy.md`，说明 `AGENTS.md` 与本地 skill 的关系。

### 下一步

继续第二讲：数据、特征与标签。

## 2026-06-05：学习体系建立与第一讲理解检查

### 当前模块

机器学习与深度学习基础

### 当前课程

第一讲：什么是机器学习

### 本次学习内容

建立了现代大模型体系化学习目录，并确定第一轮围绕三条主线展开：

- 机器学习与深度学习基础
- Transformer 与现代大模型结构
- YOLO 与目标检测

第一讲讲解了机器学习的基本闭环：

```text
数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好的预测
```

### 学生回答记录

问题 1：机器学习和传统程序最大的区别是什么？

学生回答要点：

- 机器学习需要数据集。
- 人工给出数据集的评判。
- 模型从给定数据中学习规律。

点评：

- 对监督学习的理解基本正确。
- 需要补充：不是所有机器学习都依赖人工标签，无监督学习和自监督学习可以不使用人工标注标签。

问题 2：为什么训练时需要真实答案，而推理时不需要？

学生回答要点：

- 训练时需要真实答案，这样模型才能学会。
- 学会之后，推理时模型才能给出预测答案。

点评：

- 方向正确。
- 更准确地说：训练时真实答案用于计算损失并更新参数；推理时参数已经固定，只需要输入即可产生输出。

问题 3：损失函数在训练中起什么作用？

学生回答要点：

- 衡量训练效果。
- 约束下一轮训练方向。

点评：

- 基本正确。
- 更准确地说：损失函数衡量预测和真实答案之间的差距；优化器根据损失函数的梯度决定参数更新方向。

### 纠正的关键误区

学生提到：“深度学习则是让模型自己去思考数据集是什么，不用人工标注。”

纠正：

- 深度学习不是“不用人工标注”。
- 深度学习也可以是监督学习，很多图像分类、目标检测、语音识别任务都依赖人工标注。
- 深度学习和传统机器学习的重要区别是：深度学习使用多层神经网络，能自动从原始数据中学习特征；传统机器学习往往更依赖人工特征工程。

### 本次结论

第一讲的核心理解已经基本建立：

- 机器学习是从数据中学习规律。
- 训练需要真实答案来计算损失。
- 推理使用训练好的模型进行预测。
- 损失函数衡量错误，优化器根据损失调整参数。

### 下一步

进入第二讲：数据、特征与标签。

重点要讲清楚：

- 什么是样本
- 什么是特征
- 什么是标签
- 监督学习、无监督学习、自监督学习的区别
- 深度学习为什么不是等于“不需要标签”
## 2026-06-10：旁支专题：提示词工程

### 当前模块

LLM 实用专题：提示词工程

### 本次内容

- 在 `人工智能/提示词工程` 下创建独立学习目录。
- 创建 `README.md`，说明提示词工程学习目标、学习顺序和核心原则。
- 创建 `01-现代提示词工程总论.md`，讲解现代提示词工程的核心框架：任务目标、角色与专业标准、上下文边界、约束条件、输出格式、质量标准与自检。
- 创建 `模板库.md`，沉淀通用任务、长文档总结、民事判决书总结、信息抽取、分析决策、代码助手和提示词优化模板。

### 关键结论

- 提示词工程不是“咒语”，而是任务规格设计。
- 成熟提示词要明确目标、背景、输入、约束、输出格式和验证标准。
- 长文档任务要使用明确分隔符管理上下文，避免把材料、指令和样例混在一起。
- 对新一代推理模型，不应机械要求展示完整思维链；更实用的是要求输出结论、依据、检查点和不确定信息。
- 稳定生产输出不能只靠自然语言提示词；必要时应使用结构化输出、函数调用、检索和评估集。

### 下一步

主线学习仍然回到第三讲理解检查：分类、回归、聚类和降维。提示词工程旁支下一讲建议学习“长文档总结提示词”，结合判决书、合同和论文做练习。

## 2026-06-10：补充提示词工程进阶内容

### 当前模块

LLM 实用专题：提示词工程

### 本次内容

- 复核了第一版提示词工程材料，判断入门框架完整，但工程化内容不足。
- 新增 `02-进阶：从提示词到上下文工程.md`。
- 新增 `03-长文档与法律文书提示词.md`。
- 新增 `评估清单.md`。
- 扩展 `模板库.md`，加入 RAG、Agent 工作流、提示词评估、防提示注入、高风险文档复核模板。
- 更新 `README.md` 的学习顺序、工程化判断和参考来源。

### 关键补充

- 提示词只是上下文工程的一部分；模型看到的系统规则、输入材料、示例、工具说明、历史消息和工具结果都会影响输出。
- 成熟提示词工程要从“写提示词”走向“评估、检索、结构化输出、工具设计、安全和人工复核”。
- 长文档和法律文书应采用“抽取事实 -> 归纳结构 -> 核查风险”的流程。
- 对判决书总结，必须区分原告诉称、被告辩称、法院查明、法院认为和判决结果。
- 对长期复用提示词，应建立最小评估集，记录版本、失败样例和修改原因。
- 外部网页、邮件、PDF、OCR 和用户上传内容都应视为不可信数据，防止提示注入。

### 下一步

提示词工程旁支可以继续做实战：拿一份可公开处理的判决书，按“识别结构、字段抽取、结构化总结、一致性核查”流程跑一遍，并记录失败点。

## 2026-06-10：扩展现代 Prompt 生态与 Skills

### 当前模块

LLM 实用专题：提示词工程、上下文工程、Agent Skills

### 本次内容

- 根据用户要求，不再围绕法律文书继续展开，而是扩大学习面到 prompt 相关的现代完整体系。
- 查阅并核对 Codex Skills、Anthropic Agent Skills、Agent Skills open specification、上下文工程、MCP、Subagents、Memory 等资料。
- 新增 `00-现代Prompt生态地图.md`，建立 Prompt -> Context -> Skill -> Tool -> Agent -> Eval -> Guardrail 的全景框架。
- 新增 `04-Agent Skills与可复用能力.md`，系统讲解 Skill 的结构、触发、progressive disclosure、description、scripts、references、评估和常见误区。
- 新增 `05-指令层级与长期上下文.md`，讲解 prompt、AGENTS.md、Skill、Plugin、Memory、MCP、Subagent 的分工。
- 扩展 `模板库.md`，加入创建 Agent Skill、评估 Skill 触发、选择上下文载体的模板。
- 更新 `README.md` 的学习顺序和参考来源。

### 关键结论

- Prompt 只是现代 AI 协作的一层；上下文工程、Skills、工具、MCP、Memory、Subagents、Evals 和 Guardrails 都属于 prompt 相关能力体系。
- Skill 是把可复用流程、参考资料和可选脚本打包给 agent 的能力包，核心机制是 progressive disclosure。
- Skill 的 `description` 是触发入口，必须写清楚什么时候使用和什么时候不使用。
- `AGENTS.md` 更适合项目规则，Skill 更适合某类任务流程，Memory 更适合个人偏好，MCP 更适合外部数据和工具。
- Custom prompts 在 Codex 中已经不是首选复用方式；可复用说明更应沉淀为 Skills。
- Subagents 适合并行探索和减少主上下文污染，但不适合简单任务和并发写同一批文件。

### 下一步

提示词工程旁支建议继续补两类内容：

1. RAG 与文件检索：如何让模型基于外部资料稳定回答。
2. Tool calling / MCP / Agent workflow：如何让模型安全、可控地使用工具完成任务。

## 2026-06-10：补充 RAG、文件检索、工具调用和 MCP

### 当前模块

LLM 实用专题：提示词工程、RAG、工具调用、Agent 工作流

### 本次内容

- 新增 `06-RAG与文件检索.md`，系统讲解直接文件输入、文件搜索、检索 API、向量库和完整 RAG 系统的区别。
- 新增 `07-工具调用MCP与Agent工作流.md`，系统讲解 function calling、内置工具、MCP、Agent SDK / 工作流、工具安全边界和评估方法。
- 扩展 `模板库.md`，加入 RAG 可信回答、RAG 检索调试、工具设计规格、MCP server 指令审查、Agent 工作流设计模板。
- 扩展 `评估清单.md`，加入 RAG、工具调用、Agent 和 MCP 安全评估项。
- 更新 `README.md` 的学习顺序和参考来源。

### 关键结论

- RAG 不是让模型永久记住资料，而是在回答时检索相关资料并放入上下文。
- RAG 质量取决于资料清洗、chunk、metadata、召回、重排、上下文打包、回答提示词和评估。
- Prompt 在 RAG 中仍然关键，负责限定资料来源、要求引用、处理冲突、拒绝无依据回答和防提示注入。
- Function calling 是模型生成结构化工具调用请求，真正执行、校验、授权和审计必须由系统完成。
- MCP 是连接外部 resources、tools、prompts 的协议层，不等于天然安全；权限、审批、日志和最小暴露仍然必须设计。
- 工具型 Agent 的可靠性要评估完整执行链：工具选择、参数质量、调用时机、安全边界、结果解释、失败处理和停止能力。

### 下一步

提示词工程旁支下一步建议补 Eval 自动化：为普通提示词、RAG 和 Agent 分别建立可重复运行的测试集、评分维度和失败样例记录。

## 2026-06-10：整理提示词工程目录结构

### 当前模块

LLM 实用专题：提示词工程文档整理

### 本次内容

- 将 `人工智能/提示词工程` 从平铺文件整理成三层结构：`核心课程/`、`工具箱/`、`案例/`。
- 将通用主线课程移动到 `核心课程/`，并重新编号为 `00` 到 `06`。
- 将 `模板库.md` 和 `评估清单.md` 移动到 `工具箱/`。
- 将法律文书相关内容移动到 `案例/法律文书/`，新增 `README.md`、`法律文书模板.md` 和 `法律文书评估清单.md`。
- 清理通用工具箱中的判决书专用大段模板和检查项，只保留案例入口。
- 更新提示词工程 `README.md`，明确主线学习顺序、案例材料和整理原则。

### 关键结论

- 主线课程只保留通用能力：prompt、context、skill、RAG、tool、agent、eval、guardrail。
- 工具箱只放跨场景可复用模板和评估方法。
- 法律文书属于场景案例，适合需要时参考，不应打断提示词工程主线。
- 如果某个案例里的方法具备通用价值，再抽象回核心课程或工具箱。

### 下一步

继续补 Eval 自动化，将普通提示词、RAG 和 Agent 的测试集、评分标准和失败样例记录做成可复用流程。

## 2026-06-10：补充 Eval 自动化与回归测试

### 当前模块

LLM 实用专题：提示词工程 Eval 自动化

### 本次内容

- 查阅并核对 OpenAI Evals、Evaluation best practices、Graders、Prompt optimizer、Agent evals，以及 Anthropic success criteria / evaluations 资料。
- 新增 `核心课程/07-Eval自动化与回归测试.md`，系统讲解评估集、评分器、运行器、报告、上线阈值、回归集和错误归因。
- 新增 `工具箱/Eval自动化模板.md`，提供 JSONL 评估样例、RAG Eval 样例、Agent Eval 样例、LLM judge 模板、pairwise 比较模板、回归报告和上线阈值模板。
- 扩展 `工具箱/评估清单.md`，加入 Eval 自动化上线检查。
- 扩展 `工具箱/模板库.md`，加入 Eval 自动化入口。
- 更新提示词工程 `README.md` 的学习顺序和参考来源。

### 关键结论

- Eval 是把 AI 输出质量变成可重复测试、可比较、可回归检查的工程流程。
- 不应把长期评估体系绑定在某一个平台按钮上；核心资产应是评估集、评分器、运行器、报告、阈值和失败样例。
- 普通 Prompt 主要评忠实性、完整性、精确性、格式、拒答和稳定性。
- RAG 要分层评估检索质量和生成质量，不能只看最终答案。
- Agent 要评估完整 trace，包括工具选择、参数、确认节点、工具结果解释和停止条件。
- LLM judge 适合复杂语义判断，但必须有明确 rubric，并用人工样例校准。
- 上线判断不能只看平均分，必须单独统计严重失败、成本、延迟和相对基线变化。

### 下一步

提示词工程旁支下一步建议学习多智能体协作，重点区分 subagents、handoff、并行评审、任务分派和上下文隔离。

## 2026-06-10：补充多智能体协作与 Subagents

### 当前模块

LLM 实用专题：提示词工程、多智能体协作、Subagents

### 本次内容

- 查阅并核对 OpenAI Agents SDK、handoffs、multi-agent patterns，以及 Anthropic multi-agent research system 等资料。
- 新增 `核心课程/08-多智能体协作与Subagents.md`，系统讲解多智能体适用条件、orchestrator/workers、handoff、agents as tools、并行评审、pipeline、critic/verifier、上下文隔离、权限设计、共享状态和结果合成。
- 新增 `工具箱/多智能体协作模板.md`，提供是否需要多 agent 判断、orchestrator 拆分、subagent 任务说明、handoff 交接包、并行评审、多结果合成和 trace 评估模板。
- 扩展 `工具箱/评估清单.md`，加入多智能体协作检查。
- 扩展 `工具箱/模板库.md`，加入多智能体协作入口。
- 更新提示词工程 `README.md` 的学习顺序和参考来源。

### 关键结论

- 多智能体协作的核心不是 agent 数量，而是分工、交接、权限、验证和停止条件。
- 只有拆分能带来并行、专业化、上下文隔离、权限隔离或独立复核时，才值得使用多 agent。
- Handoff 是把控制权交给更合适的 agent；subagent 是主 agent 委派子任务；agent as tool 是主 agent 保持最终控制权。
- Subagent 应有明确任务、最小必要上下文、工具边界、结构化输出和停止条件。
- 并行 agent 默认应只读；写操作应集中处理，避免共享状态冲突。
- 多 agent 最终答案不能简单拼接，需要合成、去重、冲突处理、证据核查和不确定项标注。

### 下一步

提示词工程旁支下一步建议学习成本与延迟优化，重点包括 Prompt caching、上下文裁剪、模型分层、批处理、工具调用预算和生产监控。

## 2026-06-10：补充成本、延迟优化与生产监控

### 当前模块

LLM 实用专题：提示词工程、成本优化、延迟优化、生产监控

### 本次内容

- 查阅并核对 OpenAI Prompt caching、Latency optimization、Cost optimization、Production best practices、Batch API、Flex processing、Priority processing、Rate limits、Admin APIs、Agents observability，以及 Anthropic Prompt caching / Batch processing 资料。
- 新增 `核心课程/09-成本延迟优化与生产监控.md`，系统讲解成本公式、延迟公式、输入/输出 token 优化、prompt caching、缓存命中监控、模型分层、批处理、Flex/Priority、并行、Agent 工具调用预算、生产监控和告警。
- 新增 `工具箱/成本延迟优化模板.md`，提供成本预算表、延迟拆解表、prompt caching 检查、模型分层设计、Agent 预算、上线前检查、监控指标、告警规则和优化复盘模板。
- 扩展 `工具箱/评估清单.md`，加入成本、延迟和生产监控检查。
- 扩展 `工具箱/模板库.md`，加入成本延迟优化入口。
- 更新提示词工程 `README.md` 的学习顺序和参考来源。

### 关键结论

- 生产 AI 系统不能只看单次 API 成本，更应看每成功任务成本、P95 延迟、失败率、重试率和人工复核成本。
- 成本和延迟来自整条链路：输入 token、输出 token、reasoning、RAG、工具调用、网络、重试和后处理。
- Prompt caching 的关键是把稳定内容放在请求前缀，把动态用户输入、检索结果和工具结果放在后面。
- 模型分层比“一律用最强模型”或“一律用最便宜模型”更稳，必须用 eval 验证每层模型是否达标。
- Batch、Flex、Priority 分别适合不同时间敏感度的任务，不能混用到错误场景。
- Agent 必须设置工具调用预算、检索轮数、运行时间、重试次数和停止条件。
- 上线后要监控请求、token、成本、RAG、工具、Agent trace、质量、安全和用户反馈，并设置告警。

### 下一步

提示词工程主线已经形成完整闭环。下一步可以做综合实战项目，把 Prompt、RAG、工具调用、Agent、Eval、成本监控串成一个可运行的小系统；也可以回到机器学习主线继续第三讲理解检查。

## 2026-06-10：补充综合实战项目

### 当前模块

LLM 实用专题：提示词工程综合实战

### 本次内容

- 新增 `案例/综合实战/README.md`，说明综合实战案例的目标和使用方式。
- 新增 `案例/综合实战/知识库问答Agent实战.md`，以知识库问答 Agent 为例，把 Prompt、RAG、工具调用、Agent 工作流、Verifier、Eval、成本延迟预算和生产监控串成完整项目设计。
- 新增 `工具箱/综合实战项目模板.md`，提供项目定义、系统拆解、Prompt 合同、RAG 设计、工具设计、Agent 工作流、Eval 计划、成本预算、生产监控和上线复盘模板。
- 扩展 `工具箱/模板库.md`，加入综合实战项目入口。
- 更新提示词工程 `README.md` 的学习顺序和案例材料。

### 关键结论

- 综合实战应从需求边界开始，而不是直接写 prompt。
- 知识库问答 Agent 是串联提示词工程完整体系的合适案例，因为它同时需要 RAG、工具、引用、权限、Eval、Verifier、成本预算和生产监控。
- Prompt 负责任务边界和输出合同，RAG 负责资料依据，工具负责外部查询，Agent 负责编排，Eval 负责质量回归，监控负责上线后闭环。
- 最小可行项目应先离线验证，再接入 RAG，再加入只读工具和 trace，最后做上线前评审。
- 上线后要把用户反馈、失败样例和日志异常持续补回 eval 与回归集。

### 下一步

提示词工程专题已经从理论、工具箱到综合实战形成闭环。下一步可以按具体业务扩展案例库，或把综合实战模板转成可运行脚手架；主线学习可以回到机器学习第三讲理解检查。