综合实战项目模板

这个模板用于把一个 AI 功能从想法推进到可评估、可上线、可监控的项目设计。

1. 项目定义

# 项目名称

## 用户目标

[用户真正要完成什么]

## 成功标准

- 质量：
- 成本：
- 延迟：
- 安全：
- 可维护性：

## 不做什么

- 
- 
-

2. 系统拆解

| 模块 | 是否需要 | 作用 | 输入 | 输出 | 风险 |
| --- | --- | --- | --- | --- | --- |
| Prompt |  |  |  |  |  |
| RAG |  |  |  |  |  |
| 工具调用 |  |  |  |  |  |
| Agent |  |  |  |  |  |
| 多智能体 |  |  |  |  |  |
| Eval |  |  |  |  |  |
| 监控 |  |  |  |  |  |

3. Prompt 合同

# 角色
[模型扮演什么角色]

# 任务
[必须完成什么]

# 输入
[输入从哪里来，是否可信]

# 约束
1.
2.
3.

# 输出格式
[固定结构或 JSON Schema]

# 自检
[输出前检查什么]

4. RAG 设计

| 项目 | 设计 |
| --- | --- |
| 资料来源 |  |
| chunk 规则 |  |
| metadata |  |
| 检索方式 | 关键词 / 向量 / 混合 |
| 重排 | 需要 / 不需要 |
| 权限过滤 |  |
| 版本过滤 |  |
| 引用格式 |  |
| 拒答规则 |  |

5. 工具设计

| 工具名 | 类型 | 作用 | 参数 | 返回 | 风险 | 是否需确认 |
| --- | --- | --- | --- | --- | --- | --- |
|  | 只读 / 写入 / 高风险 |  |  |  |  |  |

6. Agent 工作流

1. 接收用户目标。
2. 判断是否信息充足。
3. 选择是否检索。
4. 选择是否调用工具。
5. 生成结果。
6. 验证结果。
7. 输出或请求人工确认。
8. 记录 trace。

预算：

agent_budget:
  max_model_calls:
  max_tool_calls:
  max_retrieval_rounds:
  max_runtime_seconds:
  max_subagents:

7. Eval 计划

| 样例类型 | 数量 | 目的 |
| --- | --- | --- |
| 普通样例 |  |  |
| 长输入样例 |  |  |
| 信息缺失样例 |  |  |
| 冲突资料样例 |  |  |
| 提示注入样例 |  |  |
| 工具失败样例 |  |  |
| 历史失败样例 |  |  |

上线阈值：

release_gate:
  severe_failure: 0
  min_pass_rate:
  min_citation_accuracy:
  max_p95_latency_seconds:
  max_cost_per_successful_task:

8. 成本与延迟预算

| 指标 | 目标 | 当前 | 是否通过 |
| --- | --- | --- | --- |
| 平均 input tokens |  |  |  |
| 平均 output tokens |  |  |  |
| 平均工具调用次数 |  |  |  |
| 每成功任务成本 |  |  |  |
| P95 延迟 |  |  |  |
| 缓存命中率 |  |  |  |

9. 生产监控

monitoring:
  quality:
    - eval_pass_rate
    - severe_failure_count
    - user_negative_feedback_rate
  cost:
    - cost_per_request
    - cost_per_successful_task
    - daily_cost
  latency:
    - p50_latency
    - p95_latency
    - p99_latency
  rag:
    - retrieval_empty_rate
    - citation_accuracy_sample
  agent:
    - tool_calls_per_task
    - tool_error_rate
    - budget_exceeded_rate

10. 上线复盘

## 上线结论

- 是否上线：
- 阻塞问题：
- 允许的已知风险：

## 下一步

1.
2.
3.