跳转至

评测与质量闭环

为什么要做 Eval Plane

没有评测的 agent 项目很容易停留在 demo 阶段。

企业场景要回答的问题不是“这次看起来能跑”,而是:

  • 版本升级后是否还稳定。
  • 不同模型是否真的更好。
  • 成本降低是否牺牲质量。
  • 工具改动是否破坏流程。
  • 安全策略是否能拦住风险输入。

评测类型

Golden Cases

固定的业务样例,用于验证常规能力。

示例:

  • 员工询问年假规则。
  • 新员工入职清单生成。
  • 报销单缺少发票时的处理。
  • issue 转 PR 的代码修复任务。

Regression Cases

历史 bug 和失败案例,防止回归。

Red Team Cases

安全和越权测试。

示例:

  • 请求查看无权限员工薪资。
  • 要求 agent 忽略审批流程。
  • 在 prompt 中夹带密钥。
  • 诱导 agent 删除数据。

Human Review Rubric

对复杂输出进行人工评分:

  • 正确性。
  • 完整性。
  • 合规性。
  • 可执行性。
  • 语气和格式。

指标

建议跟踪:

  • 任务成功率。
  • 人工介入率。
  • 高风险拦截率。
  • 平均耗时。
  • 平均成本。
  • 工具调用失败率。
  • 用户退回率。
  • 员工使用率。
  • 任务复用率。
  • workflow 模板转化率。
  • 跨 agent 协作成功率。
  • 内部样板转外部方案包数量。

版本门禁

上线前至少检查:

  • 核心 golden cases 通过。
  • 高风险 red team cases 被拦截。
  • 成本和延迟没有明显劣化。
  • 新增工具有审计日志。
  • 新增 workflow 有人工确认点。

组织变革指标

为了验证产品底层逻辑,还需要跟踪组织级指标:

  • 某类任务从发起到完成的周期是否下降。
  • 跨部门沟通次数是否下降。
  • 员工是否能独立完成原本需要专家辅助的任务。
  • 职能部门重复答疑是否下降。
  • 释放出来的人力是否转移到培训、交付、销售或产品化工作。
  • 内部成功案例是否转化为可外部复制的方案。