学习日志

2026-06-05：第二讲理解检查完成，第三讲开始

当前模块

机器学习与深度学习基础

当前课程

第二讲：数据、特征与标签
第三讲：分类、回归、聚类和降维

学生回答记录

学生完成第二讲理解检查。答案已记录到：

01-ml-dl-basics/exercises/02-understanding-check.md

整体判断：第二讲通过。

掌握情况：

能正确指出房价预测中的样本、特征和标签。
能理解垃圾邮件识别通常属于监督学习。
能理解无监督学习不依赖人工标签，但可以发现数据规律。
能理解深度学习可以用于监督、无监督和自监督学习。

需要精确化：

学生提到大语言模型适合自监督，是因为数据量大、人工标注麻烦、数据有规律。这个方向正确，但需要补充：自监督学习的定义是从数据本身构造训练目标。数据量大是使用自监督的现实动机，不是定义。

本次新增讲义

01-ml-dl-basics/lessons/03-classification-regression-clustering-dimensionality.md

下一步

等待学生回答第三讲理解检查。通过后进入第四讲：模型、参数与预测。

2026-06-05：第二讲开始，数据、特征与标签

当前模块

机器学习与深度学习基础

当前课程

第二讲：数据、特征与标签

本次学习内容

创建并开始讲解第二讲讲义：

01-ml-dl-basics/lessons/02-data-features-labels.md

本讲围绕下面概念展开：

样本：一个具体训练例子。
特征：模型用来判断或预测的信息。
标签：监督学习中提供的正确答案。
监督学习：有明确输入和标签。
无监督学习：没有人工标签，目标是发现数据结构。
自监督学习：不依赖人工额外标注，而是从数据本身构造训练目标。
深度学习：使用多层神经网络的方法，可以用于监督、无监督和自监督学习。

重点纠错

继续修正上一讲留下的误区：

深度学习不是“不需要人工标注”。
深度学习描述的是模型结构，监督/无监督/自监督描述的是训练数据和训练目标的组织方式。
大语言模型预训练常见的是自监督学习，因为训练目标来自文本本身，例如根据前文预测下一个 token。

当前状态

第二讲已经开始，等待学生完成理解检查。

下一步

学生回答第二讲理解检查后，继续讲第三讲：分类、回归、聚类和降维。

2026-06-05：补充 AGENTS.md 防遗忘机制

当前模块

学习流程与记录机制

本次问题

学生询问是否需要通过 AGENT.md 来确保 skills 可以执行。

结论

不需要依赖 AGENT.md 来“确保 skill 执行”。
skill 的触发主要依赖 Codex 的 skill 发现机制和 skill metadata。
仓库级指令更适合使用 AGENTS.md，它可以把本项目的固定工作流程写在仓库根目录。
AGENTS.md 不能强制 skill 加载，但可以在 skill 没有自动加载时，要求 agent 仍然遵循学习记录流程。

已采取动作

新增 AGENTS.md。
更新 session-recording-policy.md，说明 AGENTS.md 与本地 skill 的关系。

下一步

继续第二讲：数据、特征与标签。

2026-06-05：学习体系建立与第一讲理解检查

当前模块

机器学习与深度学习基础

当前课程

第一讲：什么是机器学习

本次学习内容

建立了现代大模型体系化学习目录，并确定第一轮围绕三条主线展开：

机器学习与深度学习基础
Transformer 与现代大模型结构
YOLO 与目标检测

第一讲讲解了机器学习的基本闭环：

数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好的预测

学生回答记录

问题 1：机器学习和传统程序最大的区别是什么？

学生回答要点：

机器学习需要数据集。
人工给出数据集的评判。
模型从给定数据中学习规律。

点评：

对监督学习的理解基本正确。
需要补充：不是所有机器学习都依赖人工标签，无监督学习和自监督学习可以不使用人工标注标签。

问题 2：为什么训练时需要真实答案，而推理时不需要？

学生回答要点：

训练时需要真实答案，这样模型才能学会。
学会之后，推理时模型才能给出预测答案。

点评：

方向正确。
更准确地说：训练时真实答案用于计算损失并更新参数；推理时参数已经固定，只需要输入即可产生输出。

问题 3：损失函数在训练中起什么作用？

学生回答要点：

衡量训练效果。
约束下一轮训练方向。

点评：

基本正确。
更准确地说：损失函数衡量预测和真实答案之间的差距；优化器根据损失函数的梯度决定参数更新方向。

纠正的关键误区

学生提到：“深度学习则是让模型自己去思考数据集是什么，不用人工标注。”

纠正：

深度学习不是“不用人工标注”。
深度学习也可以是监督学习，很多图像分类、目标检测、语音识别任务都依赖人工标注。
深度学习和传统机器学习的重要区别是：深度学习使用多层神经网络，能自动从原始数据中学习特征；传统机器学习往往更依赖人工特征工程。

本次结论

第一讲的核心理解已经基本建立：

机器学习是从数据中学习规律。
训练需要真实答案来计算损失。
推理使用训练好的模型进行预测。
损失函数衡量错误，优化器根据损失调整参数。

下一步

进入第二讲：数据、特征与标签。

重点要讲清楚：

什么是样本
什么是特征
什么是标签
监督学习、无监督学习、自监督学习的区别
深度学习为什么不是等于“不需要标签”

2026-06-10：旁支专题：提示词工程

当前模块

LLM 实用专题：提示词工程

本次内容

在 人工智能/提示词工程 下创建独立学习目录。
创建 README.md，说明提示词工程学习目标、学习顺序和核心原则。
创建 01-现代提示词工程总论.md，讲解现代提示词工程的核心框架：任务目标、角色与专业标准、上下文边界、约束条件、输出格式、质量标准与自检。
创建 模板库.md，沉淀通用任务、长文档总结、民事判决书总结、信息抽取、分析决策、代码助手和提示词优化模板。

关键结论

提示词工程不是“咒语”，而是任务规格设计。
成熟提示词要明确目标、背景、输入、约束、输出格式和验证标准。
长文档任务要使用明确分隔符管理上下文，避免把材料、指令和样例混在一起。
对新一代推理模型，不应机械要求展示完整思维链；更实用的是要求输出结论、依据、检查点和不确定信息。
稳定生产输出不能只靠自然语言提示词；必要时应使用结构化输出、函数调用、检索和评估集。

下一步

主线学习仍然回到第三讲理解检查：分类、回归、聚类和降维。提示词工程旁支下一讲建议学习“长文档总结提示词”，结合判决书、合同和论文做练习。

2026-06-10：补充提示词工程进阶内容

当前模块

LLM 实用专题：提示词工程

本次内容

复核了第一版提示词工程材料，判断入门框架完整，但工程化内容不足。
新增 02-进阶：从提示词到上下文工程.md。
新增 03-长文档与法律文书提示词.md。
新增 评估清单.md。
扩展 模板库.md，加入 RAG、Agent 工作流、提示词评估、防提示注入、高风险文档复核模板。
更新 README.md 的学习顺序、工程化判断和参考来源。

关键补充

提示词只是上下文工程的一部分；模型看到的系统规则、输入材料、示例、工具说明、历史消息和工具结果都会影响输出。
成熟提示词工程要从“写提示词”走向“评估、检索、结构化输出、工具设计、安全和人工复核”。
长文档和法律文书应采用“抽取事实 -> 归纳结构 -> 核查风险”的流程。
对判决书总结，必须区分原告诉称、被告辩称、法院查明、法院认为和判决结果。
对长期复用提示词，应建立最小评估集，记录版本、失败样例和修改原因。
外部网页、邮件、PDF、OCR 和用户上传内容都应视为不可信数据，防止提示注入。

下一步

提示词工程旁支可以继续做实战：拿一份可公开处理的判决书，按“识别结构、字段抽取、结构化总结、一致性核查”流程跑一遍，并记录失败点。

2026-06-10：扩展现代 Prompt 生态与 Skills

当前模块

LLM 实用专题：提示词工程、上下文工程、Agent Skills

本次内容

根据用户要求，不再围绕法律文书继续展开，而是扩大学习面到 prompt 相关的现代完整体系。
查阅并核对 Codex Skills、Anthropic Agent Skills、Agent Skills open specification、上下文工程、MCP、Subagents、Memory 等资料。
新增 00-现代Prompt生态地图.md，建立 Prompt -> Context -> Skill -> Tool -> Agent -> Eval -> Guardrail 的全景框架。
新增 04-Agent Skills与可复用能力.md，系统讲解 Skill 的结构、触发、progressive disclosure、description、scripts、references、评估和常见误区。
新增 05-指令层级与长期上下文.md，讲解 prompt、AGENTS.md、Skill、Plugin、Memory、MCP、Subagent 的分工。
扩展 模板库.md，加入创建 Agent Skill、评估 Skill 触发、选择上下文载体的模板。
更新 README.md 的学习顺序和参考来源。

关键结论

Prompt 只是现代 AI 协作的一层；上下文工程、Skills、工具、MCP、Memory、Subagents、Evals 和 Guardrails 都属于 prompt 相关能力体系。
Skill 是把可复用流程、参考资料和可选脚本打包给 agent 的能力包，核心机制是 progressive disclosure。
Skill 的 description 是触发入口，必须写清楚什么时候使用和什么时候不使用。
AGENTS.md 更适合项目规则，Skill 更适合某类任务流程，Memory 更适合个人偏好，MCP 更适合外部数据和工具。
Custom prompts 在 Codex 中已经不是首选复用方式；可复用说明更应沉淀为 Skills。
Subagents 适合并行探索和减少主上下文污染，但不适合简单任务和并发写同一批文件。

下一步

提示词工程旁支建议继续补两类内容：

RAG 与文件检索：如何让模型基于外部资料稳定回答。
Tool calling / MCP / Agent workflow：如何让模型安全、可控地使用工具完成任务。

2026-06-10：补充 RAG、文件检索、工具调用和 MCP

当前模块

LLM 实用专题：提示词工程、RAG、工具调用、Agent 工作流

本次内容

新增 06-RAG与文件检索.md，系统讲解直接文件输入、文件搜索、检索 API、向量库和完整 RAG 系统的区别。
新增 07-工具调用MCP与Agent工作流.md，系统讲解 function calling、内置工具、MCP、Agent SDK / 工作流、工具安全边界和评估方法。
扩展 模板库.md，加入 RAG 可信回答、RAG 检索调试、工具设计规格、MCP server 指令审查、Agent 工作流设计模板。
扩展 评估清单.md，加入 RAG、工具调用、Agent 和 MCP 安全评估项。
更新 README.md 的学习顺序和参考来源。

关键结论

RAG 不是让模型永久记住资料，而是在回答时检索相关资料并放入上下文。
RAG 质量取决于资料清洗、chunk、metadata、召回、重排、上下文打包、回答提示词和评估。
Prompt 在 RAG 中仍然关键，负责限定资料来源、要求引用、处理冲突、拒绝无依据回答和防提示注入。
Function calling 是模型生成结构化工具调用请求，真正执行、校验、授权和审计必须由系统完成。
MCP 是连接外部 resources、tools、prompts 的协议层，不等于天然安全；权限、审批、日志和最小暴露仍然必须设计。
工具型 Agent 的可靠性要评估完整执行链：工具选择、参数质量、调用时机、安全边界、结果解释、失败处理和停止能力。

下一步

提示词工程旁支下一步建议补 Eval 自动化：为普通提示词、RAG 和 Agent 分别建立可重复运行的测试集、评分维度和失败样例记录。

2026-06-10：整理提示词工程目录结构

当前模块

LLM 实用专题：提示词工程文档整理

本次内容

将 人工智能/提示词工程 从平铺文件整理成三层结构：核心课程/、工具箱/、案例/。
将通用主线课程移动到 核心课程/，并重新编号为 00 到 06。
将 模板库.md 和 评估清单.md 移动到 工具箱/。
将法律文书相关内容移动到 案例/法律文书/，新增 README.md、法律文书模板.md 和 法律文书评估清单.md。
清理通用工具箱中的判决书专用大段模板和检查项，只保留案例入口。
更新提示词工程 README.md，明确主线学习顺序、案例材料和整理原则。

关键结论

主线课程只保留通用能力：prompt、context、skill、RAG、tool、agent、eval、guardrail。
工具箱只放跨场景可复用模板和评估方法。
法律文书属于场景案例，适合需要时参考，不应打断提示词工程主线。
如果某个案例里的方法具备通用价值，再抽象回核心课程或工具箱。

下一步

继续补 Eval 自动化，将普通提示词、RAG 和 Agent 的测试集、评分标准和失败样例记录做成可复用流程。

2026-06-10：补充 Eval 自动化与回归测试

当前模块

LLM 实用专题：提示词工程 Eval 自动化

本次内容

查阅并核对 OpenAI Evals、Evaluation best practices、Graders、Prompt optimizer、Agent evals，以及 Anthropic success criteria / evaluations 资料。
新增 核心课程/07-Eval自动化与回归测试.md，系统讲解评估集、评分器、运行器、报告、上线阈值、回归集和错误归因。
新增 工具箱/Eval自动化模板.md，提供 JSONL 评估样例、RAG Eval 样例、Agent Eval 样例、LLM judge 模板、pairwise 比较模板、回归报告和上线阈值模板。
扩展 工具箱/评估清单.md，加入 Eval 自动化上线检查。
扩展 工具箱/模板库.md，加入 Eval 自动化入口。
更新提示词工程 README.md 的学习顺序和参考来源。

关键结论

Eval 是把 AI 输出质量变成可重复测试、可比较、可回归检查的工程流程。
不应把长期评估体系绑定在某一个平台按钮上；核心资产应是评估集、评分器、运行器、报告、阈值和失败样例。
普通 Prompt 主要评忠实性、完整性、精确性、格式、拒答和稳定性。
RAG 要分层评估检索质量和生成质量，不能只看最终答案。
Agent 要评估完整 trace，包括工具选择、参数、确认节点、工具结果解释和停止条件。
LLM judge 适合复杂语义判断，但必须有明确 rubric，并用人工样例校准。
上线判断不能只看平均分，必须单独统计严重失败、成本、延迟和相对基线变化。

下一步

提示词工程旁支下一步建议学习多智能体协作，重点区分 subagents、handoff、并行评审、任务分派和上下文隔离。

2026-06-10：补充多智能体协作与 Subagents

当前模块

LLM 实用专题：提示词工程、多智能体协作、Subagents

本次内容

查阅并核对 OpenAI Agents SDK、handoffs、multi-agent patterns，以及 Anthropic multi-agent research system 等资料。
新增 核心课程/08-多智能体协作与Subagents.md，系统讲解多智能体适用条件、orchestrator/workers、handoff、agents as tools、并行评审、pipeline、critic/verifier、上下文隔离、权限设计、共享状态和结果合成。
新增 工具箱/多智能体协作模板.md，提供是否需要多 agent 判断、orchestrator 拆分、subagent 任务说明、handoff 交接包、并行评审、多结果合成和 trace 评估模板。
扩展 工具箱/评估清单.md，加入多智能体协作检查。
扩展 工具箱/模板库.md，加入多智能体协作入口。
更新提示词工程 README.md 的学习顺序和参考来源。

关键结论

多智能体协作的核心不是 agent 数量，而是分工、交接、权限、验证和停止条件。
只有拆分能带来并行、专业化、上下文隔离、权限隔离或独立复核时，才值得使用多 agent。
Handoff 是把控制权交给更合适的 agent；subagent 是主 agent 委派子任务；agent as tool 是主 agent 保持最终控制权。
Subagent 应有明确任务、最小必要上下文、工具边界、结构化输出和停止条件。
并行 agent 默认应只读；写操作应集中处理，避免共享状态冲突。
多 agent 最终答案不能简单拼接，需要合成、去重、冲突处理、证据核查和不确定项标注。

下一步

提示词工程旁支下一步建议学习成本与延迟优化，重点包括 Prompt caching、上下文裁剪、模型分层、批处理、工具调用预算和生产监控。

2026-06-10：补充成本、延迟优化与生产监控

当前模块

LLM 实用专题：提示词工程、成本优化、延迟优化、生产监控

本次内容

查阅并核对 OpenAI Prompt caching、Latency optimization、Cost optimization、Production best practices、Batch API、Flex processing、Priority processing、Rate limits、Admin APIs、Agents observability，以及 Anthropic Prompt caching / Batch processing 资料。
新增 核心课程/09-成本延迟优化与生产监控.md，系统讲解成本公式、延迟公式、输入/输出 token 优化、prompt caching、缓存命中监控、模型分层、批处理、Flex/Priority、并行、Agent 工具调用预算、生产监控和告警。
新增 工具箱/成本延迟优化模板.md，提供成本预算表、延迟拆解表、prompt caching 检查、模型分层设计、Agent 预算、上线前检查、监控指标、告警规则和优化复盘模板。
扩展 工具箱/评估清单.md，加入成本、延迟和生产监控检查。
扩展 工具箱/模板库.md，加入成本延迟优化入口。
更新提示词工程 README.md 的学习顺序和参考来源。

关键结论

生产 AI 系统不能只看单次 API 成本，更应看每成功任务成本、P95 延迟、失败率、重试率和人工复核成本。
成本和延迟来自整条链路：输入 token、输出 token、reasoning、RAG、工具调用、网络、重试和后处理。
Prompt caching 的关键是把稳定内容放在请求前缀，把动态用户输入、检索结果和工具结果放在后面。
模型分层比“一律用最强模型”或“一律用最便宜模型”更稳，必须用 eval 验证每层模型是否达标。
Batch、Flex、Priority 分别适合不同时间敏感度的任务，不能混用到错误场景。
Agent 必须设置工具调用预算、检索轮数、运行时间、重试次数和停止条件。
上线后要监控请求、token、成本、RAG、工具、Agent trace、质量、安全和用户反馈，并设置告警。

下一步

提示词工程主线已经形成完整闭环。下一步可以做综合实战项目，把 Prompt、RAG、工具调用、Agent、Eval、成本监控串成一个可运行的小系统；也可以回到机器学习主线继续第三讲理解检查。

2026-06-10：补充综合实战项目

当前模块

LLM 实用专题：提示词工程综合实战

本次内容

新增 案例/综合实战/README.md，说明综合实战案例的目标和使用方式。
新增 案例/综合实战/知识库问答Agent实战.md，以知识库问答 Agent 为例，把 Prompt、RAG、工具调用、Agent 工作流、Verifier、Eval、成本延迟预算和生产监控串成完整项目设计。
新增 工具箱/综合实战项目模板.md，提供项目定义、系统拆解、Prompt 合同、RAG 设计、工具设计、Agent 工作流、Eval 计划、成本预算、生产监控和上线复盘模板。
扩展 工具箱/模板库.md，加入综合实战项目入口。
更新提示词工程 README.md 的学习顺序和案例材料。

关键结论

综合实战应从需求边界开始，而不是直接写 prompt。
知识库问答 Agent 是串联提示词工程完整体系的合适案例，因为它同时需要 RAG、工具、引用、权限、Eval、Verifier、成本预算和生产监控。
Prompt 负责任务边界和输出合同，RAG 负责资料依据，工具负责外部查询，Agent 负责编排，Eval 负责质量回归，监控负责上线后闭环。
最小可行项目应先离线验证，再接入 RAG，再加入只读工具和 trace，最后做上线前评审。
上线后要把用户反馈、失败样例和日志异常持续补回 eval 与回归集。

下一步

提示词工程专题已经从理论、工具箱到综合实战形成闭环。下一步可以按具体业务扩展案例库，或把综合实战模板转成可运行脚手架；主线学习可以回到机器学习第三讲理解检查。