Real Team Context Benchmark:真实团队问题回归集¶
生成时间:2026-06-14T02:45:00+08:00
数据分类:sanitized_team_discussion。本 benchmark 从真实讨论中抽取问题类型,但只保留经过清洗的问题、预期上下文库和本地文档 marker,不保存聊天原文或私密材料。
实验定位¶
这个实验回答一个很具体的问题:我们现在做的 Context Router、知识沉淀、外部来源封口、Connector 边界和权限过滤,能不能覆盖团队真实讨论里已经暴露出来的问题。
它不是合成“好看样例”,而是把这几类真实摩擦固化成回归集:
- docs / vault / Obsidian 的职责边界问题。
- 当前开发计划是否符合 P0 Roadmap。
- 临时公众号链接导致重复搜索的问题。
- 企微 connector 接入后的 action / writeback / 泄漏边界。
- 企微 callback 进入系统后的签名、幂等和 safe ledger 边界。
- 财务上下文不能被无权限项目任务直接加载的问题。
当前结果¶
- Case 数:6
- 通过数:6
- 失败数:0
- 通过率:100%
- 本地文档检查数:10
- marker 检查数:24
- forbidden selected 数:0
- Context Router scorer:
domain_router_feature_v1
| Case | Selected | Filtered | 结果 | 说明 |
|---|---|---|---|---|
docs-vault-obsidian-question |
project_orgreorg_knowledge |
- | pass | docs/vault 组织问题属于项目知识库,不应被路由成组织目录问题。 |
roadmap-alignment-question |
project_orgreorg_knowledge |
- | pass | Roadmap 对齐问题属于项目知识库和研发进度页。 |
temporary-wechat-source-closure |
project_orgreorg_knowledge |
- | pass | 临时公众号链接问题已经通过 source closure marker 固化。 |
external-connector-action-boundary |
project_orgreorg_knowledge |
- | pass | 企微 connector 边界问题已落到 External Connector Action Gateway。 |
connector-callback-ledger-boundary |
project_orgreorg_knowledge |
- | pass | 企微 callback 签名、幂等、消息 ID 和会话 ID 泄漏边界已落到 Connector Callback Ledger。 |
finance-context-permission-boundary |
project_orgreorg_knowledge, org_directory |
department_finance_ops |
pass | 财务上下文对 project-maintainer 被 permission view 过滤。 |
关键结论¶
- 真实讨论中的 docs/vault、Roadmap、外部来源封口、Connector 边界问题都应路由到项目知识库,而不是组织目录。
- 人工纠错事件在真实问题措辞变化后仍能作为 Context Router feature 生效。
- 财务上下文在项目维护者视角下会被 permission view 过滤;正确行为是显式过滤或产生 gap,而不是扩大上下文加载范围。
- 临时公众号链接问题已经转成可检查的 source closure marker,避免再次用长时间搜索追逐不可稳定复现的链接。
- 新增外部 Connector action contract 后,真实企微接入应复用现有 action / writeback / safe output 边界。
- 新增 Connector Callback Ledger 后,真实企微回调应复用签名、时间窗、幂等、safe ledger 和泄漏检查边界。
代码入口¶
- Fixture:
domain/orgreorg-demo/real-team-context-benchmark.json - 实现:
framework/evals/real_team_context_benchmark.py - 测试:
tests/test_real_team_context_benchmark.py - 运行:
python scripts/real_team_context_benchmark.py --write-report - 输出:
vault/50-outputs/real-team-context-benchmark-analysis.md
下一步¶
- 每次团队讨论暴露一个新误路由、误搜索或权限边界问题,都应追加到这个 benchmark。
- 接入 Postgres/OpenSearch adapter 后,用同一批 case 检查真实检索投影是否放大噪声或泄漏对象存在性。
- 企微接入后,把真实消息 ID、会话 ID、签名、回调状态只作为 adapter / callback ledger 内部字段,不进入 safe output。