Prompt 版本记录模板

长期使用的 prompt 不应该只保存在聊天记录里。每次改动都要能回答：为什么改、改了什么、验证了什么、还剩什么风险。

1. Prompt 版本卡

# Prompt Version

## 基本信息

- 名称：
- 版本：
- 日期：
- 负责人：
- 适用场景：
- 关联模型：
- 关联工具：
- 关联 RAG 索引：
- 关联 schema：

## 当前 prompt

[粘贴完整 prompt，或链接到 prompt 文件]

## 成功标准

- [必须达成的质量标准]
- [格式或 schema 要求]
- [安全边界]
- [成本和延迟约束]

## 不支持范围

- [明确不做什么]
- [需要人工复核的情况]
- [应该拒答或升级的情况]

2. 改动记录

版本	日期	改动原因	主要改动	关联失败样例	验证结果
v1.0		初版
v1.1

改动原因不要只写“优化效果”。应该写清楚触发因素：

输出格式漂移。
关键字段遗漏。
RAG 引用错误。
工具误选。
安全边界失败。
成本或延迟过高。
用户反馈指出问题。
模型或 API 版本变更。

3. 失败样例记录

## Failure Case

- case_id:
- 发现日期：
- 来源：人工测试 / 生产日志 / 用户反馈 / Eval
- prompt 版本：
- 模型版本：
- 输入摘要：

### 期望行为

[应该输出什么、拒绝什么、调用什么工具或引用什么来源]

### 实际行为

[实际输出或 trace]

### 失败类型

- [ ] 幻觉
- [ ] 格式错误
- [ ] 关键字段遗漏
- [ ] 引用不支持结论
- [ ] 工具调用错误
- [ ] 权限或安全失败
- [ ] 成本或延迟异常
- [ ] 其他：

### 归因

[prompt / schema / RAG / 工具 / 模型 / 权限 / 评估集 / 数据源]

### 修复方案

[准备怎么改]

### 是否加入回归集

是 / 否。原因：

4. 发布前检查

每次 prompt 改版上线前至少检查：

旧版本和新版本使用同一批 Eval 样例比较。
严重安全失败为 0。
结构化输出通过 schema。
高风险场景仍然要求人工复核。
RAG 引用能支持关键结论。
工具调用 trace 没有越权或循环。
成本和 P95 延迟没有不可接受上涨。
失败样例已经归档。
README 或使用说明已更新。

5. 回滚记录

## Rollback

- 回滚日期：
- 从版本：
- 回滚到版本：
- 原因：
- 影响范围：
- 后续处理：

6. 最小目录建议

prompts/
  summarize_contract/
    prompt.md
    schema.json
    changelog.md
    eval_cases.jsonl
    failures/
      case_001.md

prompt、schema、eval 和失败样例放在一起，后续排查会轻很多。