AI 辅助 Prompt 开发工作流

日期：2026-06-18

一、直觉

手写 Prompt 最麻烦的地方不是打字，而是你要同时想清楚很多事：

任务目标是什么。
输入材料是什么。
输出格式是什么。
哪些内容不能编。
什么情况要拒答或标不确定。
怎么判断输出好不好。
失败后应该改哪里。

这些工作很适合让 AI 辅助完成。但目标不是让 AI 随便写一段“万能提示词”，而是让 AI 帮你把模糊需求变成可测试、可迭代的任务规格。

一句话：

人负责真实目标、业务边界和最终判断；AI 负责草拟、补全、质检、生成样例和迭代。

本讲常见术语先按下面理解，详细定义和更多例子见 00.5-术语词典与最小用例。

术语	直觉解释	最小例子
Meta-prompt	用来让 AI 写 Prompt 的 Prompt	“请帮我把下面需求改成可测试提示词”
Prompt brief	写 Prompt 前的需求简报	目标、输入、输出、边界、验收标准
Prompt critic	让 AI 扮演审稿人找问题	检查是否目标模糊、格式不可测
Prompt variant	同一任务的不同 Prompt 版本	保守版、结构化版、简短版
Failure case	Prompt 失败样例	模型编造了原文没有的金额

二、为什么需要 AI 辅助写 Prompt

普通人写 Prompt 容易出现五类问题。

1. 只写目标，不写边界

差：

帮我总结这份合同。

缺少：

总结给谁看。
需要多长。
是否只能基于原文。
是否要列风险。
信息缺失怎么处理。

AI 可以帮你追问这些缺口。

2. 输出格式不稳定

人经常只写“整理一下”，导致模型有时输出段落，有时输出表格，有时输出长篇解释。

AI 可以帮你把输出改成固定结构：

一、结论
二、关键事实
三、风险点
四、不确定信息
五、下一步建议

3. 验收标准缺失

没有验收标准，就不知道 Prompt 是变好了还是只是看起来更长。

AI 可以帮你生成检查清单：

是否只基于原文。
是否覆盖关键字段。
是否标注缺失信息。
是否避免未经支持的推断。
是否符合输出格式。

4. 不会准备测试样例

Prompt 不测试就很难稳定。AI 可以帮你准备：

普通样例。
边界样例。
信息缺失样例。
格式混乱样例。
对抗样例。

5. 失败后不知道改哪里

输出错了，不一定是 Prompt 语气不够强。可能是：

输入材料不足。
输出字段定义不清。
示例误导模型。
约束互相冲突。
应该用 schema、RAG、工具或 Eval，而不是继续加字。

AI 可以帮你做失败归因。

三、标准工作流

AI 辅助 Prompt 开发可以按七步走。

模糊需求
-> Prompt brief
-> Prompt 草案
-> 测试样例
-> 运行测试
-> 失败分析
-> Prompt 改版

第一步：让 AI 先澄清需求

不要一上来就让 AI 写最终 Prompt。先让它找缺口。

我想开发一个可复用 Prompt，用于：[任务]。

请不要直接写最终 Prompt。
请先帮我生成 Prompt brief，并列出你需要我确认的问题。

输出：
1. 你理解的任务目标
2. 目标用户或使用场景
3. 输入材料
4. 输出格式
5. 质量标准
6. 风险边界
7. 需要我确认的问题

如果 AI 问不出好问题，说明它还没理解任务。

第二步：让 AI 写 Prompt brief

Prompt brief 是写 Prompt 前的需求说明。它比直接写 Prompt 更重要。

模板：

# Prompt brief

任务名称：
使用场景：
目标用户：
输入材料：
必须完成：
不能做：
输出格式：
质量标准：
失败处理：
高风险点：
测试样例类型：

Prompt brief 的作用是把“我要一个好 Prompt”变成“我要一个能通过这些标准的 Prompt”。

第三步：让 AI 生成 Prompt 草案

确认 brief 后，再让 AI 写草案。

请基于下面的 Prompt brief，生成一个可复用 Prompt。

要求：
1. 结构清楚，分为角色、任务、输入、规则、输出格式、自检。
2. 不要写空泛口号。
3. 每条规则都要服务于任务质量或风险控制。
4. 输出格式要可检查。
5. 如果任务需要程序消费输出，请建议是否使用 JSON Schema。

<prompt_brief>
...
</prompt_brief>

第四步：让 AI 做 Prompt 质检

不要让同一个 AI 只负责“写”。还要让它切换成“审”。

请审查下面这个 Prompt。

请按以下维度找问题：
1. 任务目标是否清楚。
2. 输入边界是否清楚。
3. 输出格式是否稳定。
4. 是否有不可执行、不可验证或空泛的要求。
5. 是否有规则冲突。
6. 是否缺少失败处理。
7. 是否存在安全或越权风险。
8. 是否应该使用 schema、RAG、工具或 Eval，而不是只改 Prompt。

输出：
- 严重问题
- 中等问题
- 小问题
- 修改建议
- 修改后的 Prompt

<prompt>
[粘贴 Prompt 草案]
</prompt>

这一步能防止 AI 写出很漂亮但不可用的 Prompt。

第五步：让 AI 生成测试样例

好的 Prompt 至少要用 3-5 个样例试一下。

请基于下面的 Prompt brief 设计 5 个测试样例。

注意：测试样例不是为了让当前 Prompt 容易通过，而是为了暴露真实风险和边界问题。请至少包含 2 个可能让 Prompt 失败的样例。

要求覆盖：
1. 普通输入。
2. 长输入。
3. 信息缺失。
4. 格式混乱。
5. 容易诱发错误的边界情况。

每个样例输出：
- id
- 完整测试输入
- 测试目标
- 期望输出要点
- 通过标准
- 失败标准

<prompt_brief>
[粘贴 brief]
</prompt_brief>

如果是重要任务，样例要长期保存，后面每次改版都重跑。

生成测试样例后，再用这些样例测试 Prompt 草案。不要每次改 Prompt 都重新生成一批更容易通过的样例，否则无法比较版本是否真的变好。

第六步：让 AI 分析失败原因

测试失败后，不要只说“再优化一下”。要让 AI 做归因。

下面是 Prompt、测试输入、实际输出和失败说明。

请判断失败主要属于哪一类：
1. Prompt 目标不清。
2. 输入材料不足。
3. 输出格式约束不足。
4. 字段定义不清。
5. 示例误导。
6. 需要 schema。
7. 需要 RAG 或检索。
8. 需要工具调用。
9. 需要权限或人工复核。
10. 需要 Eval 或更多测试样例。

请给出：
- 失败原因
- 应该改 Prompt 的哪一段
- 是否需要 Prompt 之外的系统能力
- 修改后的 Prompt 片段

这一步的核心是避免无脑加长 Prompt。

第七步：记录版本

每次改 Prompt 都要记录：

版本号。
修改原因。
修改内容。
通过的样例。
仍然失败的样例。
是否需要后续升级为 schema、RAG、工具或 Skill。

最小记录：

v0.1：初版，能完成普通总结。
v0.2：增加“原文未载明”规则，修复信息缺失时编造的问题。
v0.3：增加输出结构和自检，格式更稳定。

四、一个完整小例子

模糊需求：

帮我写一个 Prompt，用来总结客服聊天记录。

先让 AI 生成 brief：

任务名称：客服聊天记录总结
使用场景：客服主管快速了解一段对话
输入材料：用户和客服的完整聊天记录
必须完成：总结问题、处理过程、当前状态、待跟进事项
不能做：不能编造未出现的承诺；不能泄露敏感信息
输出格式：固定五段
质量标准：结论忠实、待办明确、敏感信息脱敏
失败处理：信息不足时标注“记录未显示”
高风险点：退款、投诉、隐私、账号安全

再生成 Prompt：

你是客服质检助手。请只基于下面的聊天记录生成总结。

<聊天记录>
{{chat_log}}
</聊天记录>

规则：
1. 只基于聊天记录，不补充记录外事实。
2. 如果记录没有显示处理结果，写“记录未显示”。
3. 涉及手机号、身份证号、邮箱、地址时要脱敏。
4. 不要替公司承诺退款、赔偿或处理时限。
5. 高风险事项要标为“需人工复核”。

输出格式：
一、用户问题
二、已完成处理
三、当前状态
四、待跟进事项
五、风险与人工复核点

输出前自检：
- 是否把用户诉求和客服承诺分开。
- 是否标出未解决事项。
- 是否脱敏个人信息。
- 是否避免记录外推断。

再让 AI 设计测试样例：

样例	完整测试输入	测试点	通过标准
普通咨询	用户问“会员积分什么时候到账”，客服答“付款后 24 小时内到账”	能否简洁总结问题和答案	输出用户问题和已完成处理
投诉退款	用户要求退款，客服说“我帮你登记，是否退款需审核”	高风险事项	标记需人工复核，不承诺退款
信息缺失	用户问“我的订单怎么还没到”，客服只回复“我查一下”后记录结束	记录没有最终结果	当前状态写“记录未显示”
含手机号	用户发“我的手机号是 13812345678，请查订单”	隐私脱敏	手机号中间位隐藏
客服话术混乱	客服说“可能明天处理，但我不能保证”	区分事实和承诺	不把可能处理写成已承诺处理

这才是“AI 写 Prompt”的正确用法：AI 不只写 Prompt，还帮你建立测试和迭代闭环。

五、AI 写 Prompt 的好坏标准

一个 AI 生成的 Prompt 合格，至少满足这些条件：

目标明确：知道最终要完成什么。
输入明确：知道处理哪些材料，不处理哪些材料。
边界明确：知道不能编造、不能越权、不能泄露什么。
输出可检查：格式稳定，字段清楚。
失败可处理：资料不足、冲突、不确定时有规则。
可测试：能设计样例判断好坏。
可迭代：失败后知道该改哪里。

如果一个 Prompt 只是“你是专家，请认真、详细、准确地完成任务”，它不合格。

六、常见误区

误区 1：让 AI 一次生成最终 Prompt

不稳。更好的方式是先 brief，再草案，再质检，再测试，再改版。

误区 2：Prompt 越长越专业

不对。AI 很容易生成长而空的 Prompt。应该删除不服务于目标、边界、输出和验收的句子。

误区 3：AI 生成的 Prompt 不需要测试

不对。AI 生成的 Prompt 仍然会漏边界、漏失败处理、写出不可验证要求。

误区 4：失败后只让 AI “优化一下”

太模糊。要给 AI 失败样例、实际输出和失败判定，让它做归因。

误区 5：所有问题都能靠 AI 改 Prompt 解决

不能。稳定 JSON 要 schema，私有资料要 RAG，外部动作要工具，长期复用要 Skill，高风险任务要人工复核和 Eval。

七、理解检查

请你试着回答：

为什么不应该一上来就让 AI 写最终 Prompt？
Prompt brief 应该包含哪些信息？
Prompt critic 应该检查哪些问题？
为什么 AI 还要帮我们生成测试样例？
一个 Prompt 失败时，为什么不能只要求 AI “再优化一下”？

八、下一步

下一讲建议学习：02-从提示词到上下文工程.md。当你能用 AI 生成和迭代单条 Prompt 后，下一步是设计模型应该看到的全部上下文，包括材料、示例、历史、工具返回和输出契约。