返回

learning-log.md

21.3 KB · MD · 2026-06-10 17:03

学习日志

2026-06-05:第二讲理解检查完成,第三讲开始

当前模块

机器学习与深度学习基础

当前课程

第二讲:数据、特征与标签
第三讲:分类、回归、聚类和降维

学生回答记录

学生完成第二讲理解检查。答案已记录到:

  • 01-ml-dl-basics/exercises/02-understanding-check.md

整体判断:第二讲通过。

掌握情况:

  • 能正确指出房价预测中的样本、特征和标签。
  • 能理解垃圾邮件识别通常属于监督学习。
  • 能理解无监督学习不依赖人工标签,但可以发现数据规律。
  • 能理解深度学习可以用于监督、无监督和自监督学习。

需要精确化:

  • 学生提到大语言模型适合自监督,是因为数据量大、人工标注麻烦、数据有规律。这个方向正确,但需要补充:自监督学习的定义是从数据本身构造训练目标。数据量大是使用自监督的现实动机,不是定义。

本次新增讲义

  • 01-ml-dl-basics/lessons/03-classification-regression-clustering-dimensionality.md

下一步

等待学生回答第三讲理解检查。通过后进入第四讲:模型、参数与预测。

2026-06-05:第二讲开始,数据、特征与标签

当前模块

机器学习与深度学习基础

当前课程

第二讲:数据、特征与标签

本次学习内容

创建并开始讲解第二讲讲义:

  • 01-ml-dl-basics/lessons/02-data-features-labels.md

本讲围绕下面概念展开:

  • 样本:一个具体训练例子。
  • 特征:模型用来判断或预测的信息。
  • 标签:监督学习中提供的正确答案。
  • 监督学习:有明确输入和标签。
  • 无监督学习:没有人工标签,目标是发现数据结构。
  • 自监督学习:不依赖人工额外标注,而是从数据本身构造训练目标。
  • 深度学习:使用多层神经网络的方法,可以用于监督、无监督和自监督学习。

重点纠错

继续修正上一讲留下的误区:

  • 深度学习不是“不需要人工标注”。
  • 深度学习描述的是模型结构,监督/无监督/自监督描述的是训练数据和训练目标的组织方式。
  • 大语言模型预训练常见的是自监督学习,因为训练目标来自文本本身,例如根据前文预测下一个 token。

当前状态

第二讲已经开始,等待学生完成理解检查。

下一步

学生回答第二讲理解检查后,继续讲第三讲:分类、回归、聚类和降维。

2026-06-05:补充 AGENTS.md 防遗忘机制

当前模块

学习流程与记录机制

本次问题

学生询问是否需要通过 AGENT.md 来确保 skills 可以执行。

结论

  • 不需要依赖 AGENT.md 来“确保 skill 执行”。
  • skill 的触发主要依赖 Codex 的 skill 发现机制和 skill metadata。
  • 仓库级指令更适合使用 AGENTS.md,它可以把本项目的固定工作流程写在仓库根目录。
  • AGENTS.md 不能强制 skill 加载,但可以在 skill 没有自动加载时,要求 agent 仍然遵循学习记录流程。

已采取动作

  • 新增 AGENTS.md
  • 更新 session-recording-policy.md,说明 AGENTS.md 与本地 skill 的关系。

下一步

继续第二讲:数据、特征与标签。

2026-06-05:学习体系建立与第一讲理解检查

当前模块

机器学习与深度学习基础

当前课程

第一讲:什么是机器学习

本次学习内容

建立了现代大模型体系化学习目录,并确定第一轮围绕三条主线展开:

  • 机器学习与深度学习基础
  • Transformer 与现代大模型结构
  • YOLO 与目标检测

第一讲讲解了机器学习的基本闭环:

数据 -> 模型 -> 预测 -> 损失 -> 调整参数 -> 更好的预测

学生回答记录

问题 1:机器学习和传统程序最大的区别是什么?

学生回答要点:

  • 机器学习需要数据集。
  • 人工给出数据集的评判。
  • 模型从给定数据中学习规律。

点评:

  • 对监督学习的理解基本正确。
  • 需要补充:不是所有机器学习都依赖人工标签,无监督学习和自监督学习可以不使用人工标注标签。

问题 2:为什么训练时需要真实答案,而推理时不需要?

学生回答要点:

  • 训练时需要真实答案,这样模型才能学会。
  • 学会之后,推理时模型才能给出预测答案。

点评:

  • 方向正确。
  • 更准确地说:训练时真实答案用于计算损失并更新参数;推理时参数已经固定,只需要输入即可产生输出。

问题 3:损失函数在训练中起什么作用?

学生回答要点:

  • 衡量训练效果。
  • 约束下一轮训练方向。

点评:

  • 基本正确。
  • 更准确地说:损失函数衡量预测和真实答案之间的差距;优化器根据损失函数的梯度决定参数更新方向。

纠正的关键误区

学生提到:“深度学习则是让模型自己去思考数据集是什么,不用人工标注。”

纠正:

  • 深度学习不是“不用人工标注”。
  • 深度学习也可以是监督学习,很多图像分类、目标检测、语音识别任务都依赖人工标注。
  • 深度学习和传统机器学习的重要区别是:深度学习使用多层神经网络,能自动从原始数据中学习特征;传统机器学习往往更依赖人工特征工程。

本次结论

第一讲的核心理解已经基本建立:

  • 机器学习是从数据中学习规律。
  • 训练需要真实答案来计算损失。
  • 推理使用训练好的模型进行预测。
  • 损失函数衡量错误,优化器根据损失调整参数。

下一步

进入第二讲:数据、特征与标签。

重点要讲清楚:

  • 什么是样本
  • 什么是特征
  • 什么是标签
  • 监督学习、无监督学习、自监督学习的区别
  • 深度学习为什么不是等于“不需要标签”

2026-06-10:旁支专题:提示词工程

当前模块

LLM 实用专题:提示词工程

本次内容

  • 人工智能/提示词工程 下创建独立学习目录。
  • 创建 README.md,说明提示词工程学习目标、学习顺序和核心原则。
  • 创建 01-现代提示词工程总论.md,讲解现代提示词工程的核心框架:任务目标、角色与专业标准、上下文边界、约束条件、输出格式、质量标准与自检。
  • 创建 模板库.md,沉淀通用任务、长文档总结、民事判决书总结、信息抽取、分析决策、代码助手和提示词优化模板。

关键结论

  • 提示词工程不是“咒语”,而是任务规格设计。
  • 成熟提示词要明确目标、背景、输入、约束、输出格式和验证标准。
  • 长文档任务要使用明确分隔符管理上下文,避免把材料、指令和样例混在一起。
  • 对新一代推理模型,不应机械要求展示完整思维链;更实用的是要求输出结论、依据、检查点和不确定信息。
  • 稳定生产输出不能只靠自然语言提示词;必要时应使用结构化输出、函数调用、检索和评估集。

下一步

主线学习仍然回到第三讲理解检查:分类、回归、聚类和降维。提示词工程旁支下一讲建议学习“长文档总结提示词”,结合判决书、合同和论文做练习。

2026-06-10:补充提示词工程进阶内容

当前模块

LLM 实用专题:提示词工程

本次内容

  • 复核了第一版提示词工程材料,判断入门框架完整,但工程化内容不足。
  • 新增 02-进阶:从提示词到上下文工程.md
  • 新增 03-长文档与法律文书提示词.md
  • 新增 评估清单.md
  • 扩展 模板库.md,加入 RAG、Agent 工作流、提示词评估、防提示注入、高风险文档复核模板。
  • 更新 README.md 的学习顺序、工程化判断和参考来源。

关键补充

  • 提示词只是上下文工程的一部分;模型看到的系统规则、输入材料、示例、工具说明、历史消息和工具结果都会影响输出。
  • 成熟提示词工程要从“写提示词”走向“评估、检索、结构化输出、工具设计、安全和人工复核”。
  • 长文档和法律文书应采用“抽取事实 -> 归纳结构 -> 核查风险”的流程。
  • 对判决书总结,必须区分原告诉称、被告辩称、法院查明、法院认为和判决结果。
  • 对长期复用提示词,应建立最小评估集,记录版本、失败样例和修改原因。
  • 外部网页、邮件、PDF、OCR 和用户上传内容都应视为不可信数据,防止提示注入。

下一步

提示词工程旁支可以继续做实战:拿一份可公开处理的判决书,按“识别结构、字段抽取、结构化总结、一致性核查”流程跑一遍,并记录失败点。

2026-06-10:扩展现代 Prompt 生态与 Skills

当前模块

LLM 实用专题:提示词工程、上下文工程、Agent Skills

本次内容

  • 根据用户要求,不再围绕法律文书继续展开,而是扩大学习面到 prompt 相关的现代完整体系。
  • 查阅并核对 Codex Skills、Anthropic Agent Skills、Agent Skills open specification、上下文工程、MCP、Subagents、Memory 等资料。
  • 新增 00-现代Prompt生态地图.md,建立 Prompt -> Context -> Skill -> Tool -> Agent -> Eval -> Guardrail 的全景框架。
  • 新增 04-Agent Skills与可复用能力.md,系统讲解 Skill 的结构、触发、progressive disclosure、description、scripts、references、评估和常见误区。
  • 新增 05-指令层级与长期上下文.md,讲解 prompt、AGENTS.md、Skill、Plugin、Memory、MCP、Subagent 的分工。
  • 扩展 模板库.md,加入创建 Agent Skill、评估 Skill 触发、选择上下文载体的模板。
  • 更新 README.md 的学习顺序和参考来源。

关键结论

  • Prompt 只是现代 AI 协作的一层;上下文工程、Skills、工具、MCP、Memory、Subagents、Evals 和 Guardrails 都属于 prompt 相关能力体系。
  • Skill 是把可复用流程、参考资料和可选脚本打包给 agent 的能力包,核心机制是 progressive disclosure。
  • Skill 的 description 是触发入口,必须写清楚什么时候使用和什么时候不使用。
  • AGENTS.md 更适合项目规则,Skill 更适合某类任务流程,Memory 更适合个人偏好,MCP 更适合外部数据和工具。
  • Custom prompts 在 Codex 中已经不是首选复用方式;可复用说明更应沉淀为 Skills。
  • Subagents 适合并行探索和减少主上下文污染,但不适合简单任务和并发写同一批文件。

下一步

提示词工程旁支建议继续补两类内容:

  1. RAG 与文件检索:如何让模型基于外部资料稳定回答。
  2. Tool calling / MCP / Agent workflow:如何让模型安全、可控地使用工具完成任务。

2026-06-10:补充 RAG、文件检索、工具调用和 MCP

当前模块

LLM 实用专题:提示词工程、RAG、工具调用、Agent 工作流

本次内容

  • 新增 06-RAG与文件检索.md,系统讲解直接文件输入、文件搜索、检索 API、向量库和完整 RAG 系统的区别。
  • 新增 07-工具调用MCP与Agent工作流.md,系统讲解 function calling、内置工具、MCP、Agent SDK / 工作流、工具安全边界和评估方法。
  • 扩展 模板库.md,加入 RAG 可信回答、RAG 检索调试、工具设计规格、MCP server 指令审查、Agent 工作流设计模板。
  • 扩展 评估清单.md,加入 RAG、工具调用、Agent 和 MCP 安全评估项。
  • 更新 README.md 的学习顺序和参考来源。

关键结论

  • RAG 不是让模型永久记住资料,而是在回答时检索相关资料并放入上下文。
  • RAG 质量取决于资料清洗、chunk、metadata、召回、重排、上下文打包、回答提示词和评估。
  • Prompt 在 RAG 中仍然关键,负责限定资料来源、要求引用、处理冲突、拒绝无依据回答和防提示注入。
  • Function calling 是模型生成结构化工具调用请求,真正执行、校验、授权和审计必须由系统完成。
  • MCP 是连接外部 resources、tools、prompts 的协议层,不等于天然安全;权限、审批、日志和最小暴露仍然必须设计。
  • 工具型 Agent 的可靠性要评估完整执行链:工具选择、参数质量、调用时机、安全边界、结果解释、失败处理和停止能力。

下一步

提示词工程旁支下一步建议补 Eval 自动化:为普通提示词、RAG 和 Agent 分别建立可重复运行的测试集、评分维度和失败样例记录。

2026-06-10:整理提示词工程目录结构

当前模块

LLM 实用专题:提示词工程文档整理

本次内容

  • 人工智能/提示词工程 从平铺文件整理成三层结构:核心课程/工具箱/案例/
  • 将通用主线课程移动到 核心课程/,并重新编号为 0006
  • 模板库.md评估清单.md 移动到 工具箱/
  • 将法律文书相关内容移动到 案例/法律文书/,新增 README.md法律文书模板.md法律文书评估清单.md
  • 清理通用工具箱中的判决书专用大段模板和检查项,只保留案例入口。
  • 更新提示词工程 README.md,明确主线学习顺序、案例材料和整理原则。

关键结论

  • 主线课程只保留通用能力:prompt、context、skill、RAG、tool、agent、eval、guardrail。
  • 工具箱只放跨场景可复用模板和评估方法。
  • 法律文书属于场景案例,适合需要时参考,不应打断提示词工程主线。
  • 如果某个案例里的方法具备通用价值,再抽象回核心课程或工具箱。

下一步

继续补 Eval 自动化,将普通提示词、RAG 和 Agent 的测试集、评分标准和失败样例记录做成可复用流程。

2026-06-10:补充 Eval 自动化与回归测试

当前模块

LLM 实用专题:提示词工程 Eval 自动化

本次内容

  • 查阅并核对 OpenAI Evals、Evaluation best practices、Graders、Prompt optimizer、Agent evals,以及 Anthropic success criteria / evaluations 资料。
  • 新增 核心课程/07-Eval自动化与回归测试.md,系统讲解评估集、评分器、运行器、报告、上线阈值、回归集和错误归因。
  • 新增 工具箱/Eval自动化模板.md,提供 JSONL 评估样例、RAG Eval 样例、Agent Eval 样例、LLM judge 模板、pairwise 比较模板、回归报告和上线阈值模板。
  • 扩展 工具箱/评估清单.md,加入 Eval 自动化上线检查。
  • 扩展 工具箱/模板库.md,加入 Eval 自动化入口。
  • 更新提示词工程 README.md 的学习顺序和参考来源。

关键结论

  • Eval 是把 AI 输出质量变成可重复测试、可比较、可回归检查的工程流程。
  • 不应把长期评估体系绑定在某一个平台按钮上;核心资产应是评估集、评分器、运行器、报告、阈值和失败样例。
  • 普通 Prompt 主要评忠实性、完整性、精确性、格式、拒答和稳定性。
  • RAG 要分层评估检索质量和生成质量,不能只看最终答案。
  • Agent 要评估完整 trace,包括工具选择、参数、确认节点、工具结果解释和停止条件。
  • LLM judge 适合复杂语义判断,但必须有明确 rubric,并用人工样例校准。
  • 上线判断不能只看平均分,必须单独统计严重失败、成本、延迟和相对基线变化。

下一步

提示词工程旁支下一步建议学习多智能体协作,重点区分 subagents、handoff、并行评审、任务分派和上下文隔离。

2026-06-10:补充多智能体协作与 Subagents

当前模块

LLM 实用专题:提示词工程、多智能体协作、Subagents

本次内容

  • 查阅并核对 OpenAI Agents SDK、handoffs、multi-agent patterns,以及 Anthropic multi-agent research system 等资料。
  • 新增 核心课程/08-多智能体协作与Subagents.md,系统讲解多智能体适用条件、orchestrator/workers、handoff、agents as tools、并行评审、pipeline、critic/verifier、上下文隔离、权限设计、共享状态和结果合成。
  • 新增 工具箱/多智能体协作模板.md,提供是否需要多 agent 判断、orchestrator 拆分、subagent 任务说明、handoff 交接包、并行评审、多结果合成和 trace 评估模板。
  • 扩展 工具箱/评估清单.md,加入多智能体协作检查。
  • 扩展 工具箱/模板库.md,加入多智能体协作入口。
  • 更新提示词工程 README.md 的学习顺序和参考来源。

关键结论

  • 多智能体协作的核心不是 agent 数量,而是分工、交接、权限、验证和停止条件。
  • 只有拆分能带来并行、专业化、上下文隔离、权限隔离或独立复核时,才值得使用多 agent。
  • Handoff 是把控制权交给更合适的 agent;subagent 是主 agent 委派子任务;agent as tool 是主 agent 保持最终控制权。
  • Subagent 应有明确任务、最小必要上下文、工具边界、结构化输出和停止条件。
  • 并行 agent 默认应只读;写操作应集中处理,避免共享状态冲突。
  • 多 agent 最终答案不能简单拼接,需要合成、去重、冲突处理、证据核查和不确定项标注。

下一步

提示词工程旁支下一步建议学习成本与延迟优化,重点包括 Prompt caching、上下文裁剪、模型分层、批处理、工具调用预算和生产监控。

2026-06-10:补充成本、延迟优化与生产监控

当前模块

LLM 实用专题:提示词工程、成本优化、延迟优化、生产监控

本次内容

  • 查阅并核对 OpenAI Prompt caching、Latency optimization、Cost optimization、Production best practices、Batch API、Flex processing、Priority processing、Rate limits、Admin APIs、Agents observability,以及 Anthropic Prompt caching / Batch processing 资料。
  • 新增 核心课程/09-成本延迟优化与生产监控.md,系统讲解成本公式、延迟公式、输入/输出 token 优化、prompt caching、缓存命中监控、模型分层、批处理、Flex/Priority、并行、Agent 工具调用预算、生产监控和告警。
  • 新增 工具箱/成本延迟优化模板.md,提供成本预算表、延迟拆解表、prompt caching 检查、模型分层设计、Agent 预算、上线前检查、监控指标、告警规则和优化复盘模板。
  • 扩展 工具箱/评估清单.md,加入成本、延迟和生产监控检查。
  • 扩展 工具箱/模板库.md,加入成本延迟优化入口。
  • 更新提示词工程 README.md 的学习顺序和参考来源。

关键结论

  • 生产 AI 系统不能只看单次 API 成本,更应看每成功任务成本、P95 延迟、失败率、重试率和人工复核成本。
  • 成本和延迟来自整条链路:输入 token、输出 token、reasoning、RAG、工具调用、网络、重试和后处理。
  • Prompt caching 的关键是把稳定内容放在请求前缀,把动态用户输入、检索结果和工具结果放在后面。
  • 模型分层比“一律用最强模型”或“一律用最便宜模型”更稳,必须用 eval 验证每层模型是否达标。
  • Batch、Flex、Priority 分别适合不同时间敏感度的任务,不能混用到错误场景。
  • Agent 必须设置工具调用预算、检索轮数、运行时间、重试次数和停止条件。
  • 上线后要监控请求、token、成本、RAG、工具、Agent trace、质量、安全和用户反馈,并设置告警。

下一步

提示词工程主线已经形成完整闭环。下一步可以做综合实战项目,把 Prompt、RAG、工具调用、Agent、Eval、成本监控串成一个可运行的小系统;也可以回到机器学习主线继续第三讲理解检查。

2026-06-10:补充综合实战项目

当前模块

LLM 实用专题:提示词工程综合实战

本次内容

  • 新增 案例/综合实战/README.md,说明综合实战案例的目标和使用方式。
  • 新增 案例/综合实战/知识库问答Agent实战.md,以知识库问答 Agent 为例,把 Prompt、RAG、工具调用、Agent 工作流、Verifier、Eval、成本延迟预算和生产监控串成完整项目设计。
  • 新增 工具箱/综合实战项目模板.md,提供项目定义、系统拆解、Prompt 合同、RAG 设计、工具设计、Agent 工作流、Eval 计划、成本预算、生产监控和上线复盘模板。
  • 扩展 工具箱/模板库.md,加入综合实战项目入口。
  • 更新提示词工程 README.md 的学习顺序和案例材料。

关键结论

  • 综合实战应从需求边界开始,而不是直接写 prompt。
  • 知识库问答 Agent 是串联提示词工程完整体系的合适案例,因为它同时需要 RAG、工具、引用、权限、Eval、Verifier、成本预算和生产监控。
  • Prompt 负责任务边界和输出合同,RAG 负责资料依据,工具负责外部查询,Agent 负责编排,Eval 负责质量回归,监控负责上线后闭环。
  • 最小可行项目应先离线验证,再接入 RAG,再加入只读工具和 trace,最后做上线前评审。
  • 上线后要把用户反馈、失败样例和日志异常持续补回 eval 与回归集。

下一步

提示词工程专题已经从理论、工具箱到综合实战形成闭环。下一步可以按具体业务扩展案例库,或把综合实战模板转成可运行脚手架;主线学习可以回到机器学习第三讲理解检查。