返回

01.5-AI辅助Prompt开发工作流.md

11.5 KB · MD · 2026-06-18 10:11

AI 辅助 Prompt 开发工作流

日期:2026-06-18

一、直觉

手写 Prompt 最麻烦的地方不是打字,而是你要同时想清楚很多事:

  • 任务目标是什么。
  • 输入材料是什么。
  • 输出格式是什么。
  • 哪些内容不能编。
  • 什么情况要拒答或标不确定。
  • 怎么判断输出好不好。
  • 失败后应该改哪里。

这些工作很适合让 AI 辅助完成。但目标不是让 AI 随便写一段“万能提示词”,而是让 AI 帮你把模糊需求变成可测试、可迭代的任务规格。

一句话:

人负责真实目标、业务边界和最终判断;AI 负责草拟、补全、质检、生成样例和迭代。

本讲常见术语先按下面理解,详细定义和更多例子见 00.5-术语词典与最小用例

术语 直觉解释 最小例子
Meta-prompt 用来让 AI 写 Prompt 的 Prompt “请帮我把下面需求改成可测试提示词”
Prompt brief 写 Prompt 前的需求简报 目标、输入、输出、边界、验收标准
Prompt critic 让 AI 扮演审稿人找问题 检查是否目标模糊、格式不可测
Prompt variant 同一任务的不同 Prompt 版本 保守版、结构化版、简短版
Failure case Prompt 失败样例 模型编造了原文没有的金额

二、为什么需要 AI 辅助写 Prompt

普通人写 Prompt 容易出现五类问题。

1. 只写目标,不写边界

差:

帮我总结这份合同。

缺少:

  • 总结给谁看。
  • 需要多长。
  • 是否只能基于原文。
  • 是否要列风险。
  • 信息缺失怎么处理。

AI 可以帮你追问这些缺口。

2. 输出格式不稳定

人经常只写“整理一下”,导致模型有时输出段落,有时输出表格,有时输出长篇解释。

AI 可以帮你把输出改成固定结构:

一、结论
二、关键事实
三、风险点
四、不确定信息
五、下一步建议

3. 验收标准缺失

没有验收标准,就不知道 Prompt 是变好了还是只是看起来更长。

AI 可以帮你生成检查清单:

  • 是否只基于原文。
  • 是否覆盖关键字段。
  • 是否标注缺失信息。
  • 是否避免未经支持的推断。
  • 是否符合输出格式。

4. 不会准备测试样例

Prompt 不测试就很难稳定。AI 可以帮你准备:

  • 普通样例。
  • 边界样例。
  • 信息缺失样例。
  • 格式混乱样例。
  • 对抗样例。

5. 失败后不知道改哪里

输出错了,不一定是 Prompt 语气不够强。可能是:

  • 输入材料不足。
  • 输出字段定义不清。
  • 示例误导模型。
  • 约束互相冲突。
  • 应该用 schema、RAG、工具或 Eval,而不是继续加字。

AI 可以帮你做失败归因。

三、标准工作流

AI 辅助 Prompt 开发可以按七步走。

模糊需求
-> Prompt brief
-> Prompt 草案
-> 测试样例
-> 运行测试
-> 失败分析
-> Prompt 改版

第一步:让 AI 先澄清需求

不要一上来就让 AI 写最终 Prompt。先让它找缺口。

我想开发一个可复用 Prompt,用于:[任务]。

请不要直接写最终 Prompt。
请先帮我生成 Prompt brief,并列出你需要我确认的问题。

输出:
1. 你理解的任务目标
2. 目标用户或使用场景
3. 输入材料
4. 输出格式
5. 质量标准
6. 风险边界
7. 需要我确认的问题

如果 AI 问不出好问题,说明它还没理解任务。

第二步:让 AI 写 Prompt brief

Prompt brief 是写 Prompt 前的需求说明。它比直接写 Prompt 更重要。

模板:

# Prompt brief

任务名称:
使用场景:
目标用户:
输入材料:
必须完成:
不能做:
输出格式:
质量标准:
失败处理:
高风险点:
测试样例类型:

Prompt brief 的作用是把“我要一个好 Prompt”变成“我要一个能通过这些标准的 Prompt”。

第三步:让 AI 生成 Prompt 草案

确认 brief 后,再让 AI 写草案。

请基于下面的 Prompt brief,生成一个可复用 Prompt。

要求:
1. 结构清楚,分为角色、任务、输入、规则、输出格式、自检。
2. 不要写空泛口号。
3. 每条规则都要服务于任务质量或风险控制。
4. 输出格式要可检查。
5. 如果任务需要程序消费输出,请建议是否使用 JSON Schema。

<prompt_brief>
...
</prompt_brief>

第四步:让 AI 做 Prompt 质检

不要让同一个 AI 只负责“写”。还要让它切换成“审”。

请审查下面这个 Prompt。

请按以下维度找问题:
1. 任务目标是否清楚。
2. 输入边界是否清楚。
3. 输出格式是否稳定。
4. 是否有不可执行、不可验证或空泛的要求。
5. 是否有规则冲突。
6. 是否缺少失败处理。
7. 是否存在安全或越权风险。
8. 是否应该使用 schema、RAG、工具或 Eval,而不是只改 Prompt。

输出:
- 严重问题
- 中等问题
- 小问题
- 修改建议
- 修改后的 Prompt

<prompt>
[粘贴 Prompt 草案]
</prompt>

这一步能防止 AI 写出很漂亮但不可用的 Prompt。

第五步:让 AI 生成测试样例

好的 Prompt 至少要用 3-5 个样例试一下。

请基于下面的 Prompt brief 设计 5 个测试样例。

注意:测试样例不是为了让当前 Prompt 容易通过,而是为了暴露真实风险和边界问题。请至少包含 2 个可能让 Prompt 失败的样例。

要求覆盖:
1. 普通输入。
2. 长输入。
3. 信息缺失。
4. 格式混乱。
5. 容易诱发错误的边界情况。

每个样例输出:
- id
- 完整测试输入
- 测试目标
- 期望输出要点
- 通过标准
- 失败标准

<prompt_brief>
[粘贴 brief]
</prompt_brief>

如果是重要任务,样例要长期保存,后面每次改版都重跑。

生成测试样例后,再用这些样例测试 Prompt 草案。不要每次改 Prompt 都重新生成一批更容易通过的样例,否则无法比较版本是否真的变好。

第六步:让 AI 分析失败原因

测试失败后,不要只说“再优化一下”。要让 AI 做归因。

下面是 Prompt、测试输入、实际输出和失败说明。

请判断失败主要属于哪一类:
1. Prompt 目标不清。
2. 输入材料不足。
3. 输出格式约束不足。
4. 字段定义不清。
5. 示例误导。
6. 需要 schema。
7. 需要 RAG 或检索。
8. 需要工具调用。
9. 需要权限或人工复核。
10. 需要 Eval 或更多测试样例。

请给出:
- 失败原因
- 应该改 Prompt 的哪一段
- 是否需要 Prompt 之外的系统能力
- 修改后的 Prompt 片段

这一步的核心是避免无脑加长 Prompt。

第七步:记录版本

每次改 Prompt 都要记录:

  • 版本号。
  • 修改原因。
  • 修改内容。
  • 通过的样例。
  • 仍然失败的样例。
  • 是否需要后续升级为 schema、RAG、工具或 Skill。

最小记录:

v0.1:初版,能完成普通总结。
v0.2:增加“原文未载明”规则,修复信息缺失时编造的问题。
v0.3:增加输出结构和自检,格式更稳定。

四、一个完整小例子

模糊需求:

帮我写一个 Prompt,用来总结客服聊天记录。

先让 AI 生成 brief:

任务名称:客服聊天记录总结
使用场景:客服主管快速了解一段对话
输入材料:用户和客服的完整聊天记录
必须完成:总结问题、处理过程、当前状态、待跟进事项
不能做:不能编造未出现的承诺;不能泄露敏感信息
输出格式:固定五段
质量标准:结论忠实、待办明确、敏感信息脱敏
失败处理:信息不足时标注“记录未显示”
高风险点:退款、投诉、隐私、账号安全

再生成 Prompt:

你是客服质检助手。请只基于下面的聊天记录生成总结。

<聊天记录>
{{chat_log}}
</聊天记录>

规则:
1. 只基于聊天记录,不补充记录外事实。
2. 如果记录没有显示处理结果,写“记录未显示”。
3. 涉及手机号、身份证号、邮箱、地址时要脱敏。
4. 不要替公司承诺退款、赔偿或处理时限。
5. 高风险事项要标为“需人工复核”。

输出格式:
一、用户问题
二、已完成处理
三、当前状态
四、待跟进事项
五、风险与人工复核点

输出前自检:
- 是否把用户诉求和客服承诺分开。
- 是否标出未解决事项。
- 是否脱敏个人信息。
- 是否避免记录外推断。

再让 AI 设计测试样例:

样例 完整测试输入 测试点 通过标准
普通咨询 用户问“会员积分什么时候到账”,客服答“付款后 24 小时内到账” 能否简洁总结问题和答案 输出用户问题和已完成处理
投诉退款 用户要求退款,客服说“我帮你登记,是否退款需审核” 高风险事项 标记需人工复核,不承诺退款
信息缺失 用户问“我的订单怎么还没到”,客服只回复“我查一下”后记录结束 记录没有最终结果 当前状态写“记录未显示”
含手机号 用户发“我的手机号是 13812345678,请查订单” 隐私脱敏 手机号中间位隐藏
客服话术混乱 客服说“可能明天处理,但我不能保证” 区分事实和承诺 不把可能处理写成已承诺处理

这才是“AI 写 Prompt”的正确用法:AI 不只写 Prompt,还帮你建立测试和迭代闭环。

五、AI 写 Prompt 的好坏标准

一个 AI 生成的 Prompt 合格,至少满足这些条件:

  • 目标明确:知道最终要完成什么。
  • 输入明确:知道处理哪些材料,不处理哪些材料。
  • 边界明确:知道不能编造、不能越权、不能泄露什么。
  • 输出可检查:格式稳定,字段清楚。
  • 失败可处理:资料不足、冲突、不确定时有规则。
  • 可测试:能设计样例判断好坏。
  • 可迭代:失败后知道该改哪里。

如果一个 Prompt 只是“你是专家,请认真、详细、准确地完成任务”,它不合格。

六、常见误区

误区 1:让 AI 一次生成最终 Prompt

不稳。更好的方式是先 brief,再草案,再质检,再测试,再改版。

误区 2:Prompt 越长越专业

不对。AI 很容易生成长而空的 Prompt。应该删除不服务于目标、边界、输出和验收的句子。

误区 3:AI 生成的 Prompt 不需要测试

不对。AI 生成的 Prompt 仍然会漏边界、漏失败处理、写出不可验证要求。

误区 4:失败后只让 AI “优化一下”

太模糊。要给 AI 失败样例、实际输出和失败判定,让它做归因。

误区 5:所有问题都能靠 AI 改 Prompt 解决

不能。稳定 JSON 要 schema,私有资料要 RAG,外部动作要工具,长期复用要 Skill,高风险任务要人工复核和 Eval。

七、理解检查

请你试着回答:

  1. 为什么不应该一上来就让 AI 写最终 Prompt?
  2. Prompt brief 应该包含哪些信息?
  3. Prompt critic 应该检查哪些问题?
  4. 为什么 AI 还要帮我们生成测试样例?
  5. 一个 Prompt 失败时,为什么不能只要求 AI “再优化一下”?

八、下一步

下一讲建议学习:02-从提示词到上下文工程.md。当你能用 AI 生成和迭代单条 Prompt 后,下一步是设计模型应该看到的全部上下文,包括材料、示例、历史、工具返回和输出契约。