任务技能包使用日志¶

更新日期：2026-06-14

记录 OrgReOrg / Harness 当前 P0 任务技能包在本地研用测过程中的触发质量、上下文成本和人工纠正信号，用于反向改进 manifest、gotchas、benchmark 和 dashboard。

数据分类：local_internal_demo。本页只记录任务摘要、包 ID、token 和人工纠正，不保存原始聊天全文。

总览¶

指标	数值
event_count	12
trigger_precision	91.7%
trigger_recall	91.7%
exact_match_rate	83.3%
human_correction_rate	16.7%
avg_context_tokens	608.1
total_context_tokens	7297

当前样例中 human_correction_rate=16.7%，误触发 1 次，漏触发 1 次。

包级信号¶

包	触发	期望	TP	FP	FN	人工纠正	Avg Tokens
`agentic_search_benchmark`	2	2	2	0	0	0	800.0
`ask_router_review`	1	1	1	0	0	0	453.0
`harness_knowledge_ingest`	3	4	3	0	1	1	734.3
`project_status_dashboard`	6	5	5	1	0	1	591.8

事件明细¶

时间	来源	任务	期望包	实际包	Tokens	人工纠正	备注
2026-06-13T10:10:00+08:00	manual	用户分享外部资料并要求按知识沉淀流程处理	harness_knowledge_ingest	harness_knowledge_ingest	920	no	-
2026-06-13T10:45:00+08:00	manual	更新研发进度总览并生成 MkDocs 页面	project_status_dashboard	project_status_dashboard	640	no	-
2026-06-13T11:30:00+08:00	manual	对比 Agentic Search 的 Postgres、OpenSearch 和渐进披露方案	agentic_search_benchmark	agentic_search_benchmark	820	no	-
2026-06-13T12:20:00+08:00	manual	回答团队成员从哪里看当前项目进度	project_status_dashboard	project_status_dashboard	540	no	-
2026-06-13T13:05:00+08:00	manual	只读网站内容并解释当前页面，不需要更新 dashboard	-	project_status_dashboard	410	yes	误触发：project_status_dashboard 只读查询不应触发 project_status_dashboard，需要 negative_terms 覆盖“只看一下/只解释”。
2026-06-13T14:00:00+08:00	manual	扩展 SearchConnector conformance 并复用同一验收集	agentic_search_benchmark	agentic_search_benchmark	780	no	-
2026-06-13T14:40:00+08:00	manual	用户继续丢链接和观点，要求进入团队知识库	harness_knowledge_ingest	-	350	yes	漏触发：harness_knowledge_ingest 分享链接和观点时漏触发知识入库包，需要把“继续沉淀/进入团队知识库”加入触发样例。
2026-06-13T15:25:00+08:00	manual	把实验报告注册表同步到项目研发进度看板	project_status_dashboard, harness_knowledge_ingest	project_status_dashboard, harness_knowledge_ingest	860	no	-
2026-06-13T16:05:00+08:00	manual	实现任务技能包使用日志 dashboard	project_status_dashboard	project_status_dashboard	680	no	-
2026-06-13T17:10:00+08:00	task_skill_runtime	用本地 task skill runtime 自动选择任务包并追加 usage log 事件	project_status_dashboard	project_status_dashboard	421	no	-
2026-06-13T07:23:29.838381+00:00	task_skill_runtime	继续沉淀这条链接，进入团队知识库。	harness_knowledge_ingest	harness_knowledge_ingest	423	no	-
2026-06-13T19:40:00+08:00	task_skill_runtime	主动询问前检查 route_ask_request 选中的 owner、企微消息和 pending knowledge card，并补 ask_router_review 任务技能包。	ask_router_review	ask_router_review	453	no	-

当前结论¶

任务技能包已经有离线 benchmark，但运行期仍需要 usage log，否则无法知道真实任务中是否误触发、漏触发或需要人工纠正。
当前样例里主要问题各出现一次：project_status_dashboard 在只读场景误触发，harness_knowledge_ingest 在用户分享链接时漏触发。
usage log 不替代实验报告。它记录实际使用信号，后续应反向更新 manifest、negative_terms、任务包 gotchas 和 benchmark fixture。
P0 已接入本地 task_skill_runtime，可以自动选择任务包并追加 usage event；ask_router_review 已进入真实使用日志，接入企微或线上 Agent runtime 后继续复用同一 schema。

下一步¶

把本地 runtime 接入线上 Agent / 企微 / Web runtime，自动记录 selected/expected、tokens 和人工纠正。
将误触发和漏触发样例反写到 task_skill_package_eval fixture。
把已完成的 tool_gateway_safety case 纳入同一 usage dashboard，并继续记录 ask_router_review 的问错人、节流和回复解析纠正信号。