评测与质量闭环¶

为什么要做 Eval Plane¶

没有评测的 agent 项目很容易停留在 demo 阶段。

企业场景要回答的问题不是“这次看起来能跑”，而是：

版本升级后是否还稳定。
不同模型是否真的更好。
成本降低是否牺牲质量。
工具改动是否破坏流程。
安全策略是否能拦住风险输入。

评测类型¶

Golden Cases¶

固定的业务样例，用于验证常规能力。

示例：

员工询问年假规则。
新员工入职清单生成。
报销单缺少发票时的处理。
issue 转 PR 的代码修复任务。

Regression Cases¶

历史 bug 和失败案例，防止回归。

Red Team Cases¶

安全和越权测试。

示例：

请求查看无权限员工薪资。
要求 agent 忽略审批流程。
在 prompt 中夹带密钥。
诱导 agent 删除数据。

Human Review Rubric¶

对复杂输出进行人工评分：

正确性。
完整性。
合规性。
可执行性。
语气和格式。

指标¶

建议跟踪：

任务成功率。
人工介入率。
高风险拦截率。
平均耗时。
平均成本。
工具调用失败率。
用户退回率。
员工使用率。
任务复用率。
workflow 模板转化率。
跨 agent 协作成功率。
内部样板转外部方案包数量。

当前本地评测资产¶

当前 repo 已经把评测资产放进 framework/evals/，脚本只保留 CLI wrapper。

评测	关注问题	入口
Agentic Search Option Benchmark	P0 用 Postgres、OpenSearch/ES 还是纯向量库	Agentic Search Option Benchmark
Task Skill Package Eval	任务技能包是否误触发、膨胀、过期或暴露不安全包	Task Skill Package Eval
Ingestion Quality Demo	入库清洗是否丢事实、丢来源、丢权限字段	Ingestion Quality Demo
Retrieval Platform Benchmark	检索是否会权限泄漏、命中删除材料、错过 gap	Retrieval Platform Benchmark
SearchConnector Tool Gateway	检索工具是否经过 Tool Gateway，是否拦住 scope escalation 和不安全输出	SearchConnector Tool Gateway
Knowledge Card Tool Gateway	reviewed/promoted knowledge card reindex/search 是否经过 Tool Gateway，是否泄漏 restricted card	Knowledge Card Tool Gateway
Workspace Scope Eval	同一 Framework 能否服务 personal、department、project 三类私域并阻断跨域泄漏	Workspace Scope Eval
Context Router Stale Policy Eval	`stale_index=true` 时 Context Router 是否能按任务风险分级披露、等待或阻断	Context Router Stale Policy Eval
Projection Remediation Eval	关键风险 stale projection 被 block 后，是否能进入统一补证、reindex 和人审路径	Projection Remediation Eval
Context Management Eval	最小充分上下文是否同时满足任务证据、token 成本、权限过滤和 knowledge gap 显式化	Context Management Eval
No-WeCom MVP Demo	未接企业微信时，本地 MVP 主链路是否能端到端跑通	No-WeCom MVP Demo
Context Layer Benchmark	渐进披露、RAG、分层混合在 Runtime Projection 不同访问路径下的边界	Context Layer Benchmark
Ask Router Simulation	主动询问是否问对人、少打扰、保留 review 状态	Ask Router Simulation

任务技能包本身也有 lint 门禁：

python scripts/task_skill_package_lint.py

版本门禁¶

上线前至少检查：

核心 golden cases 通过。
高风险 red team cases 被拦截。
成本和延迟没有明显劣化。
新增工具有审计日志。
新增 workflow 有人工确认点。

组织变革指标¶

为了验证产品底层逻辑，还需要跟踪组织级指标：

某类任务从发起到完成的周期是否下降。
跨部门沟通次数是否下降。
员工是否能独立完成原本需要专家辅助的任务。
职能部门重复答疑是否下降。
释放出来的人力是否转移到培训、交付、销售或产品化工作。
内部成功案例是否转化为可外部复制的方案。