成本、延迟与生产监控模板

本文件用于 AI 功能上线前评审、上线后监控和优化复盘。它不绑定某个供应商，适合 Prompt、RAG、Agent、多智能体和批处理任务。

1. 成本预算表

| 项目 | 当前值 | 目标值 | 备注 |
| --- | --- | --- | --- |
| 日请求量 |  |  |  |
| 平均 input tokens |  |  |  |
| 平均 output tokens |  |  |  |
| 平均 reasoning tokens |  |  |  |
| 平均 cached tokens |  |  |  |
| 平均工具调用次数 |  |  |  |
| 平均检索次数 |  |  |  |
| 单请求成本 |  |  |  |
| 每成功任务成本 |  |  |  |
| 日成本 |  |  |  |
| 月成本 |  |  |  |

2. 延迟拆解表

| 环节 | P50 | P95 | P99 | 备注 |
| --- | --- | --- | --- | --- |
| 网络请求 |  |  |  |  |
| RAG 检索 |  |  |  |  |
| 工具调用 |  |  |  |  |
| 模型首 token |  |  |  |  |
| 模型完整输出 |  |  |  |  |
| 后处理 |  |  |  |  |
| 总耗时 |  |  |  |  |

3. Prompt caching 设计检查

请审查下面的请求结构是否适合 prompt caching。

# 请求结构
[描述 system、tools、examples、context、user input、retrieval results 的顺序]

# 检查项
1. 稳定内容是否放在前面。
2. 动态用户输入是否放在后面。
3. 时间戳、用户 ID、随机 ID 是否污染稳定前缀。
4. 工具定义顺序是否稳定。
5. few-shot 示例是否稳定。
6. RAG 动态片段是否放在稳定内容之后。
7. 是否记录 cached tokens 和 cache hit rate。

# 输出
一、缓存友好程度：高 / 中 / 低
二、破坏缓存命中的因素
三、推荐的请求顺序
四、需要监控的指标

4. 模型分层设计模板

请为下面 AI 功能设计模型分层策略。

# 功能目标
[写功能]

# 任务类型
- 路由：
- 分类：
- 抽取：
- 总结：
- 推理：
- RAG：
- 工具调用：
- 高风险复核：

# 约束
- 成本上限：
- 延迟上限：
- 准确率要求：
- 安全要求：

# 输出
请给出：
1. 哪些步骤用小模型。
2. 哪些步骤用强模型。
3. 哪些步骤可以异步或批处理。
4. 哪些步骤必须人工复核。
5. 每层需要通过的 eval 指标。
6. 降级策略。

5. Agent 工具调用预算模板

agent_budget:
  max_total_runtime_seconds:
  max_model_calls:
  max_tool_calls:
  max_retrieval_rounds:
  max_subagents:
  max_retries:
  max_input_tokens:
  max_output_tokens:
  stop_when_no_new_information: true
  require_confirmation_for:
    - delete
    - payment
    - send_message
    - permission_change
    - publish

6. 上线前检查清单

## 上线前检查

- [ ] 有质量 eval 基线。
- [ ] 有成本预算。
- [ ] 有 P50/P95/P99 延迟目标。
- [ ] 有 prompt 版本记录。
- [ ] 有模型版本记录。
- [ ] 有 RAG 索引版本记录。
- [ ] 有工具版本记录。
- [ ] 有缓存命中率监控。
- [ ] 有 token 用量监控。
- [ ] 有错误率、超时率、重试率监控。
- [ ] 有高风险操作确认。
- [ ] 有限流和降级策略。
- [ ] 有人工复核或升级路径。
- [ ] 有成本异常告警。
- [ ] 有质量回归告警。

7. 生产监控指标模板

monitoring:
  request:
    - request_count
    - success_rate
    - error_rate
    - timeout_rate
    - retry_rate
    - p50_latency
    - p95_latency
    - p99_latency
    - time_to_first_token
    - time_to_final_answer
  cost:
    - input_tokens
    - output_tokens
    - reasoning_tokens
    - cached_tokens
    - cost_per_request
    - cost_per_successful_task
    - daily_cost
    - monthly_cost
  rag:
    - retrieval_latency
    - retrieved_chunks
    - no_answer_rate
    - citation_accuracy_sample
    - stale_document_hit_rate
  agent:
    - model_calls_per_task
    - tool_calls_per_task
    - tool_error_rate
    - tool_timeout_rate
    - budget_exceeded_rate
    - human_confirmation_count
  quality:
    - eval_pass_rate
    - severe_failure_count
    - user_negative_feedback_rate
    - human_review_failure_rate
    - prompt_injection_detected_count

8. 告警规则模板

alerts:
  daily_cost_over_budget:
    condition: daily_cost > budget * 1.1
    severity: warning
  p95_latency_high:
    condition: p95_latency > target_p95_latency
    severity: warning
  severe_eval_failure:
    condition: severe_failure_count > 0
    severity: critical
  cache_hit_rate_drop:
    condition: cache_hit_rate < baseline_cache_hit_rate * 0.7
    severity: warning
  tool_error_spike:
    condition: tool_error_rate > baseline_tool_error_rate * 2
    severity: warning
  agent_budget_exceeded:
    condition: budget_exceeded_rate > 0.02
    severity: warning

9. 优化复盘模板

# 成本与延迟优化复盘

日期：
功能：
版本：

## 优化前

- 平均成本：
- 每成功任务成本：
- P95 延迟：
- 缓存命中率：
- Eval 通过率：

## 改动

1.
2.
3.

## 优化后

- 平均成本：
- 每成功任务成本：
- P95 延迟：
- 缓存命中率：
- Eval 通过率：

## 结果判断

- 成本是否下降：
- 延迟是否下降：
- 质量是否保持：
- 是否引入新风险：

## 下一步

1.
2.
3.