Context Layer Benchmark：运行时上下文访问对照实验¶

这个实验验证什么¶

这个实验比较三类知识访问方式：

Codex / Claude Code 风格的渐进披露。
预入库 RAG。
分层混合访问。

它不是模型真实调用压测，也不是 OpenSearch / Postgres 实测。当前目标是先把 Runtime Projection 中不同访问路径的适用边界和失败模式固化成可复跑 benchmark。当前记录已经物化为 ContextDocumentRecord，受控路径通过 SearchConnector.get_document() 做权限和 lifecycle 候选过滤。

运行命令：

python scripts/context_layer_benchmark.py --write-report

输出文件：

workspaces/variai/outputs/context-layer-benchmark-results.json
workspaces/variai/outputs/context-layer-benchmark-analysis.md

当前样例¶

当前包含 11 条 synthetic 上下文记录、8 个 synthetic 问题，覆盖：

D2 Markdown 稳定架构知识。
D3 大规模政策检索投影。
D3 restricted / deleted 反例。
D4 财务和项目系统 Evidence Connector。
D5 企微接口 owner 询问对象。

工作流¶

工作流	描述
`progressive_only`	只查 D2 Markdown 本体制品，模拟 `Site/Knowledge + rg + read`
`rag_unsafe`	只查 D3 预入库检索投影，不做权限和 lifecycle 过滤
`rag_guarded`	只查 D3 预入库检索投影，通过 SearchConnector contract 做权限和 lifecycle 过滤
`tiered_hybrid`	根据任务先查 D2，必要时下探 D3/D4/D5；受控路径复用 SearchConnector 候选过滤

当前结果¶

工作流	Recall@3	Top1	路径命中	Gap 准确率	安全回答率	权限泄漏	生命周期违规	平均工具调用	平均上下文 token
`progressive_only`	33%	33%	33%	0%	25%	0	0	2.00	498.5
`rag_unsafe`	17%	17%	17%	0%	0%	5	4	1.00	374.4
`rag_guarded`	17%	17%	17%	100%	38%	0	0	1.00	223.1
`tiered_hybrid`	100%	100%	100%	100%	100%	0	0	1.38	154.0

结论¶

第一，D2 Markdown 渐进披露很适合稳定架构、ADR、协作规则类问题，但无法回答大规模政策检索、实时业务状态和 owner 询问。

第二，D3 RAG-first 能覆盖大规模政策检索，但如果没有权限和 lifecycle 过滤，会泄露 restricted 或 deleted 材料。

第三，D3 guarded 解决了部分安全问题，但仍无法回答 D4 Evidence Connector 权威状态和 D5 问谁的问题。

第四，分层混合在当前样例里效果最好，但它必须有 Context Router 记录下探原因，避免所有问题都走最重链路。这里的 D2/D3/D4/D5 是运行时访问路径，不是知识形态主模型。

第五，敏感意图识别是必要组件。薪酬、银行账号 这类问题不能被 D2 泛文档弱相关命中，必须进入受控检索或直接报告 gap。

对下一步选型的影响¶

当前还没有决定 D3 检索投影的最终底座。下一步应把同一批 ContextDocumentRecord 和同一套 SearchConnector conformance case 接到：

Postgres FTS / pgvector。
OpenSearch / Elasticsearch。

对比指标不只看 Recall，还要看：

ACL / RLS 表达。
删除传播。
lifecycle 过滤。
中文分词。
精确编号。
更新延迟。
运维成本。
rank log / explain 能力。

D4 Evidence Connector 也还没有最终方案，需要用真实 Connector 验证：财务、CRM、项目系统和 GitHub 的读取成本、权限裁剪、审计记录和错误恢复。