评测与质量闭环¶
为什么要做 Eval Plane¶
没有评测的 agent 项目很容易停留在 demo 阶段。
企业场景要回答的问题不是“这次看起来能跑”,而是:
- 版本升级后是否还稳定。
- 不同模型是否真的更好。
- 成本降低是否牺牲质量。
- 工具改动是否破坏流程。
- 安全策略是否能拦住风险输入。
评测类型¶
Golden Cases¶
固定的业务样例,用于验证常规能力。
示例:
- 员工询问年假规则。
- 新员工入职清单生成。
- 报销单缺少发票时的处理。
- issue 转 PR 的代码修复任务。
Regression Cases¶
历史 bug 和失败案例,防止回归。
Red Team Cases¶
安全和越权测试。
示例:
- 请求查看无权限员工薪资。
- 要求 agent 忽略审批流程。
- 在 prompt 中夹带密钥。
- 诱导 agent 删除数据。
Human Review Rubric¶
对复杂输出进行人工评分:
- 正确性。
- 完整性。
- 合规性。
- 可执行性。
- 语气和格式。
指标¶
建议跟踪:
- 任务成功率。
- 人工介入率。
- 高风险拦截率。
- 平均耗时。
- 平均成本。
- 工具调用失败率。
- 用户退回率。
- 员工使用率。
- 任务复用率。
- workflow 模板转化率。
- 跨 agent 协作成功率。
- 内部样板转外部方案包数量。
版本门禁¶
上线前至少检查:
- 核心 golden cases 通过。
- 高风险 red team cases 被拦截。
- 成本和延迟没有明显劣化。
- 新增工具有审计日志。
- 新增 workflow 有人工确认点。
组织变革指标¶
为了验证产品底层逻辑,还需要跟踪组织级指标:
- 某类任务从发起到完成的周期是否下降。
- 跨部门沟通次数是否下降。
- 员工是否能独立完成原本需要专家辅助的任务。
- 职能部门重复答疑是否下降。
- 释放出来的人力是否转移到培训、交付、销售或产品化工作。
- 内部成功案例是否转化为可外部复制的方案。