综合实战项目模板
这个模板用于把一个 AI 功能从想法推进到可评估、可上线、可监控的项目设计。
1. 项目定义
# 项目名称
## 用户目标
[用户真正要完成什么]
## 成功标准
- 质量:
- 成本:
- 延迟:
- 安全:
- 可维护性:
## 不做什么
-
-
-
2. 系统拆解
| 模块 | 是否需要 | 作用 | 输入 | 输出 | 风险 |
| --- | --- | --- | --- | --- | --- |
| Prompt | | | | | |
| RAG | | | | | |
| 工具调用 | | | | | |
| Agent | | | | | |
| 多智能体 | | | | | |
| Eval | | | | | |
| 监控 | | | | | |
3. Prompt 合同
# 角色
[模型扮演什么角色]
# 任务
[必须完成什么]
# 输入
[输入从哪里来,是否可信]
# 约束
1.
2.
3.
# 输出格式
[固定结构或 JSON Schema]
# 自检
[输出前检查什么]
4. RAG 设计
| 项目 | 设计 |
| --- | --- |
| 资料来源 | |
| chunk 规则 | |
| metadata | |
| 检索方式 | 关键词 / 向量 / 混合 |
| 重排 | 需要 / 不需要 |
| 权限过滤 | |
| 版本过滤 | |
| 引用格式 | |
| 拒答规则 | |
5. 工具设计
| 工具名 | 类型 | 作用 | 参数 | 返回 | 风险 | 是否需确认 |
| --- | --- | --- | --- | --- | --- | --- |
| | 只读 / 写入 / 高风险 | | | | | |
6. Agent 工作流
1. 接收用户目标。
2. 判断是否信息充足。
3. 选择是否检索。
4. 选择是否调用工具。
5. 生成结果。
6. 验证结果。
7. 输出或请求人工确认。
8. 记录 trace。
预算:
agent_budget:
max_model_calls:
max_tool_calls:
max_retrieval_rounds:
max_runtime_seconds:
max_subagents:
7. Eval 计划
| 样例类型 | 数量 | 目的 |
| --- | --- | --- |
| 普通样例 | | |
| 长输入样例 | | |
| 信息缺失样例 | | |
| 冲突资料样例 | | |
| 提示注入样例 | | |
| 工具失败样例 | | |
| 历史失败样例 | | |
上线阈值:
release_gate:
severe_failure: 0
min_pass_rate:
min_citation_accuracy:
max_p95_latency_seconds:
max_cost_per_successful_task:
8. 成本与延迟预算
| 指标 | 目标 | 当前 | 是否通过 |
| --- | --- | --- | --- |
| 平均 input tokens | | | |
| 平均 output tokens | | | |
| 平均工具调用次数 | | | |
| 每成功任务成本 | | | |
| P95 延迟 | | | |
| 缓存命中率 | | | |
9. 生产监控
monitoring:
quality:
- eval_pass_rate
- severe_failure_count
- user_negative_feedback_rate
cost:
- cost_per_request
- cost_per_successful_task
- daily_cost
latency:
- p50_latency
- p95_latency
- p99_latency
rag:
- retrieval_empty_rate
- citation_accuracy_sample
agent:
- tool_calls_per_task
- tool_error_rate
- budget_exceeded_rate
10. 上线复盘
## 上线结论
- 是否上线:
- 阻塞问题:
- 允许的已知风险:
## 下一步
1.
2.
3.