跳转至

Real Team Context Benchmark:真实团队问题回归集

生成时间:2026-06-14T02:45:00+08:00

数据分类:sanitized_team_discussion。本 benchmark 从真实讨论中抽取问题类型,但只保留经过清洗的问题、预期上下文库和本地文档 marker,不保存聊天原文或私密材料。

实验定位

这个实验回答一个很具体的问题:我们现在做的 Context Router、知识沉淀、外部来源封口、Connector 边界和权限过滤,能不能覆盖团队真实讨论里已经暴露出来的问题。

它不是合成“好看样例”,而是把这几类真实摩擦固化成回归集:

  • docs / vault / Obsidian 的职责边界问题。
  • 当前开发计划是否符合 P0 Roadmap。
  • 临时公众号链接导致重复搜索的问题。
  • 企微 connector 接入后的 action / writeback / 泄漏边界。
  • 企微 callback 进入系统后的签名、幂等和 safe ledger 边界。
  • 财务上下文不能被无权限项目任务直接加载的问题。

当前结果

  • Case 数:6
  • 通过数:6
  • 失败数:0
  • 通过率:100%
  • 本地文档检查数:10
  • marker 检查数:24
  • forbidden selected 数:0
  • Context Router scorer:domain_router_feature_v1
Case Selected Filtered 结果 说明
docs-vault-obsidian-question project_orgreorg_knowledge - pass docs/vault 组织问题属于项目知识库,不应被路由成组织目录问题。
roadmap-alignment-question project_orgreorg_knowledge - pass Roadmap 对齐问题属于项目知识库和研发进度页。
temporary-wechat-source-closure project_orgreorg_knowledge - pass 临时公众号链接问题已经通过 source closure marker 固化。
external-connector-action-boundary project_orgreorg_knowledge - pass 企微 connector 边界问题已落到 External Connector Action Gateway。
connector-callback-ledger-boundary project_orgreorg_knowledge - pass 企微 callback 签名、幂等、消息 ID 和会话 ID 泄漏边界已落到 Connector Callback Ledger。
finance-context-permission-boundary project_orgreorg_knowledge, org_directory department_finance_ops pass 财务上下文对 project-maintainer 被 permission view 过滤。

关键结论

  1. 真实讨论中的 docs/vault、Roadmap、外部来源封口、Connector 边界问题都应路由到项目知识库,而不是组织目录。
  2. 人工纠错事件在真实问题措辞变化后仍能作为 Context Router feature 生效。
  3. 财务上下文在项目维护者视角下会被 permission view 过滤;正确行为是显式过滤或产生 gap,而不是扩大上下文加载范围。
  4. 临时公众号链接问题已经转成可检查的 source closure marker,避免再次用长时间搜索追逐不可稳定复现的链接。
  5. 新增外部 Connector action contract 后,真实企微接入应复用现有 action / writeback / safe output 边界。
  6. 新增 Connector Callback Ledger 后,真实企微回调应复用签名、时间窗、幂等、safe ledger 和泄漏检查边界。

代码入口

  • Fixture:domain/orgreorg-demo/real-team-context-benchmark.json
  • 实现:framework/evals/real_team_context_benchmark.py
  • 测试:tests/test_real_team_context_benchmark.py
  • 运行:python scripts/real_team_context_benchmark.py --write-report
  • 输出:vault/50-outputs/real-team-context-benchmark-analysis.md

下一步

  1. 每次团队讨论暴露一个新误路由、误搜索或权限边界问题,都应追加到这个 benchmark。
  2. 接入 Postgres/OpenSearch adapter 后,用同一批 case 检查真实检索投影是否放大噪声或泄漏对象存在性。
  3. 企微接入后,把真实消息 ID、会话 ID、签名、回调状态只作为 adapter / callback ledger 内部字段,不进入 safe output。