成本、延迟与生产监控模板
本文件用于 AI 功能上线前评审、上线后监控和优化复盘。它不绑定某个供应商,适合 Prompt、RAG、Agent、多智能体和批处理任务。
1. 成本预算表
| 项目 | 当前值 | 目标值 | 备注 |
| --- | --- | --- | --- |
| 日请求量 | | | |
| 平均 input tokens | | | |
| 平均 output tokens | | | |
| 平均 reasoning tokens | | | |
| 平均 cached tokens | | | |
| 平均工具调用次数 | | | |
| 平均检索次数 | | | |
| 单请求成本 | | | |
| 每成功任务成本 | | | |
| 日成本 | | | |
| 月成本 | | | |
2. 延迟拆解表
| 环节 | P50 | P95 | P99 | 备注 |
| --- | --- | --- | --- | --- |
| 网络请求 | | | | |
| RAG 检索 | | | | |
| 工具调用 | | | | |
| 模型首 token | | | | |
| 模型完整输出 | | | | |
| 后处理 | | | | |
| 总耗时 | | | | |
3. Prompt caching 设计检查
请审查下面的请求结构是否适合 prompt caching。
# 请求结构
[描述 system、tools、examples、context、user input、retrieval results 的顺序]
# 检查项
1. 稳定内容是否放在前面。
2. 动态用户输入是否放在后面。
3. 时间戳、用户 ID、随机 ID 是否污染稳定前缀。
4. 工具定义顺序是否稳定。
5. few-shot 示例是否稳定。
6. RAG 动态片段是否放在稳定内容之后。
7. 是否记录 cached tokens 和 cache hit rate。
# 输出
一、缓存友好程度:高 / 中 / 低
二、破坏缓存命中的因素
三、推荐的请求顺序
四、需要监控的指标
4. 模型分层设计模板
请为下面 AI 功能设计模型分层策略。
# 功能目标
[写功能]
# 任务类型
- 路由:
- 分类:
- 抽取:
- 总结:
- 推理:
- RAG:
- 工具调用:
- 高风险复核:
# 约束
- 成本上限:
- 延迟上限:
- 准确率要求:
- 安全要求:
# 输出
请给出:
1. 哪些步骤用小模型。
2. 哪些步骤用强模型。
3. 哪些步骤可以异步或批处理。
4. 哪些步骤必须人工复核。
5. 每层需要通过的 eval 指标。
6. 降级策略。
5. Agent 工具调用预算模板
agent_budget:
max_total_runtime_seconds:
max_model_calls:
max_tool_calls:
max_retrieval_rounds:
max_subagents:
max_retries:
max_input_tokens:
max_output_tokens:
stop_when_no_new_information: true
require_confirmation_for:
- delete
- payment
- send_message
- permission_change
- publish
6. 上线前检查清单
## 上线前检查
- [ ] 有质量 eval 基线。
- [ ] 有成本预算。
- [ ] 有 P50/P95/P99 延迟目标。
- [ ] 有 prompt 版本记录。
- [ ] 有模型版本记录。
- [ ] 有 RAG 索引版本记录。
- [ ] 有工具版本记录。
- [ ] 有缓存命中率监控。
- [ ] 有 token 用量监控。
- [ ] 有错误率、超时率、重试率监控。
- [ ] 有高风险操作确认。
- [ ] 有限流和降级策略。
- [ ] 有人工复核或升级路径。
- [ ] 有成本异常告警。
- [ ] 有质量回归告警。
7. 生产监控指标模板
monitoring:
request:
- request_count
- success_rate
- error_rate
- timeout_rate
- retry_rate
- p50_latency
- p95_latency
- p99_latency
- time_to_first_token
- time_to_final_answer
cost:
- input_tokens
- output_tokens
- reasoning_tokens
- cached_tokens
- cost_per_request
- cost_per_successful_task
- daily_cost
- monthly_cost
rag:
- retrieval_latency
- retrieved_chunks
- no_answer_rate
- citation_accuracy_sample
- stale_document_hit_rate
agent:
- model_calls_per_task
- tool_calls_per_task
- tool_error_rate
- tool_timeout_rate
- budget_exceeded_rate
- human_confirmation_count
quality:
- eval_pass_rate
- severe_failure_count
- user_negative_feedback_rate
- human_review_failure_rate
- prompt_injection_detected_count
8. 告警规则模板
alerts:
daily_cost_over_budget:
condition: daily_cost > budget * 1.1
severity: warning
p95_latency_high:
condition: p95_latency > target_p95_latency
severity: warning
severe_eval_failure:
condition: severe_failure_count > 0
severity: critical
cache_hit_rate_drop:
condition: cache_hit_rate < baseline_cache_hit_rate * 0.7
severity: warning
tool_error_spike:
condition: tool_error_rate > baseline_tool_error_rate * 2
severity: warning
agent_budget_exceeded:
condition: budget_exceeded_rate > 0.02
severity: warning
9. 优化复盘模板
# 成本与延迟优化复盘
日期:
功能:
版本:
## 优化前
- 平均成本:
- 每成功任务成本:
- P95 延迟:
- 缓存命中率:
- Eval 通过率:
## 改动
1.
2.
3.
## 优化后
- 平均成本:
- 每成功任务成本:
- P95 延迟:
- 缓存命中率:
- Eval 通过率:
## 结果判断
- 成本是否下降:
- 延迟是否下降:
- 质量是否保持:
- 是否引入新风险:
## 下一步
1.
2.
3.