返回

Prompt版本记录模板.md

2.7 KB · MD · 2026-06-14 10:35

Prompt 版本记录模板

长期使用的 prompt 不应该只保存在聊天记录里。每次改动都要能回答:为什么改、改了什么、验证了什么、还剩什么风险。

1. Prompt 版本卡

# Prompt Version

## 基本信息

- 名称:
- 版本:
- 日期:
- 负责人:
- 适用场景:
- 关联模型:
- 关联工具:
- 关联 RAG 索引:
- 关联 schema:

## 当前 prompt

[粘贴完整 prompt,或链接到 prompt 文件]

## 成功标准

- [必须达成的质量标准]
- [格式或 schema 要求]
- [安全边界]
- [成本和延迟约束]

## 不支持范围

- [明确不做什么]
- [需要人工复核的情况]
- [应该拒答或升级的情况]

2. 改动记录

版本 日期 改动原因 主要改动 关联失败样例 验证结果
v1.0 初版
v1.1

改动原因不要只写“优化效果”。应该写清楚触发因素:

  • 输出格式漂移。
  • 关键字段遗漏。
  • RAG 引用错误。
  • 工具误选。
  • 安全边界失败。
  • 成本或延迟过高。
  • 用户反馈指出问题。
  • 模型或 API 版本变更。

3. 失败样例记录

## Failure Case

- case_id:
- 发现日期:
- 来源:人工测试 / 生产日志 / 用户反馈 / Eval
- prompt 版本:
- 模型版本:
- 输入摘要:

### 期望行为

[应该输出什么、拒绝什么、调用什么工具或引用什么来源]

### 实际行为

[实际输出或 trace]

### 失败类型

- [ ] 幻觉
- [ ] 格式错误
- [ ] 关键字段遗漏
- [ ] 引用不支持结论
- [ ] 工具调用错误
- [ ] 权限或安全失败
- [ ] 成本或延迟异常
- [ ] 其他:

### 归因

[prompt / schema / RAG / 工具 / 模型 / 权限 / 评估集 / 数据源]

### 修复方案

[准备怎么改]

### 是否加入回归集

是 / 否。原因:

4. 发布前检查

每次 prompt 改版上线前至少检查:

  • 旧版本和新版本使用同一批 Eval 样例比较。
  • 严重安全失败为 0。
  • 结构化输出通过 schema。
  • 高风险场景仍然要求人工复核。
  • RAG 引用能支持关键结论。
  • 工具调用 trace 没有越权或循环。
  • 成本和 P95 延迟没有不可接受上涨。
  • 失败样例已经归档。
  • README 或使用说明已更新。

5. 回滚记录

## Rollback

- 回滚日期:
- 从版本:
- 回滚到版本:
- 原因:
- 影响范围:
- 后续处理:

6. 最小目录建议

prompts/
  summarize_contract/
    prompt.md
    schema.json
    changelog.md
    eval_cases.jsonl
    failures/
      case_001.md

prompt、schema、eval 和失败样例放在一起,后续排查会轻很多。