16
AI 效果衡量与治理
AI 工作流上线后,必须用指标、审计和反馈闭环来保证“好用且可控”。
1) 成功标准(定义清晰才好优化)
- 速度:处理耗时/等待时间(如工单首响 < 5 分钟)。
- 质量:一次通过率、人工返工率、用户满意度(CSAT/NPS)。
- 成本:每次调用成本、节省的人力时间、模型切换节省。
- 覆盖率:被 AI 辅助的任务占比,自动化命中率。
2) 数据采集与埋点
- 记录:模型名称/版本、提示词 ID、输入长度、输出长度、耗时、错误码。
- 分流:标记“全自动/半自动/人工兜底”路径,便于对比。
- 日志脱敏:对输入输出做 PII 脱敏,避免把敏感信息写入日志系统。
3) 质量审计
- 抽检:每周随机抽检样本,人工给出“准确性/语气/合规”评分。
- 双模对比:关键流程定期用小模型 vs 大模型对比质量与成本。
- 回放:保存输入/输出/上下文,方便复盘问题和迭代提示词。
4) 反馈与改进
- 用户反馈入口:在输出末尾附“满意/不满意 + 理由”快速收集。
- 失败路径:对“低置信/敏感”场景自动转人工,并记录触发原因。
- Prompt 迭代:每次改版都记录“变更点/预期效果/观测结果”,避免回退。
5) 模型与参数治理
- 模型切换:设定“切换标准”(如成本上升 30% 或召回率下降)和灰度比例。
- 参数基线:温度/最大 tokens/惩罚项有默认值,特殊场景单独覆盖。
- 缓存/重试:对确定性回答可缓存;对 429/5xx 采用重试 + 降级模型。
6) 报表与复盘
- 周报:成功率、P95 延迟、成本、人工介入率、Top 错误原因。
- 复盘模版:问题描述 → 根因(Prompt/模型/数据/流程)→ 修复方案 → 后续监控。
- 成熟后接入告警:延迟/成本/错误率异常时通知负责人。
7) 练习
为你正在用的 AI 场景设计 5 个指标(速度/质量/成本/覆盖/反馈),写出数据来源和告警阈值;让 AI 帮你生成一份周报模板和审计清单。*** End Patch