跳转至

任务技能包使用日志

更新日期:2026-06-13

记录 OrgReOrg / Harness 当前 P0 任务技能包在本地研用测过程中的触发质量、上下文成本和人工纠正信号,用于反向改进 manifest、gotchas、benchmark 和 dashboard。

数据分类:local_internal_demo。本页只记录任务摘要、包 ID、token 和人工纠正,不保存原始聊天全文。

总览

指标 数值
event_count 12
trigger_precision 91.7%
trigger_recall 91.7%
exact_match_rate 83.3%
human_correction_rate 16.7%
avg_context_tokens 608.1
total_context_tokens 7297

当前样例中 human_correction_rate=16.7%,误触发 1 次,漏触发 1 次。

包级信号

触发 期望 TP FP FN 人工纠正 Avg Tokens
agentic_search_benchmark 2 2 2 0 0 0 800.0
ask_router_review 1 1 1 0 0 0 453.0
harness_knowledge_ingest 3 4 3 0 1 1 734.3
project_status_dashboard 6 5 5 1 0 1 591.8

事件明细

时间 来源 任务 期望包 实际包 Tokens 人工纠正 备注
2026-06-13T10:10:00+08:00 manual 用户分享外部资料并要求按知识沉淀流程处理 harness_knowledge_ingest harness_knowledge_ingest 920 no -
2026-06-13T10:45:00+08:00 manual 更新研发进度总览并生成 MkDocs 页面 project_status_dashboard project_status_dashboard 640 no -
2026-06-13T11:30:00+08:00 manual 对比 Agentic Search 的 Postgres、OpenSearch 和渐进披露方案 agentic_search_benchmark agentic_search_benchmark 820 no -
2026-06-13T12:20:00+08:00 manual 回答团队成员从哪里看当前项目进度 project_status_dashboard project_status_dashboard 540 no -
2026-06-13T13:05:00+08:00 manual 只读网站内容并解释当前页面,不需要更新 dashboard - project_status_dashboard 410 yes 误触发:project_status_dashboard
只读查询不应触发 project_status_dashboard,需要 negative_terms 覆盖“只看一下/只解释”。
2026-06-13T14:00:00+08:00 manual 扩展 SearchConnector conformance 并复用同一验收集 agentic_search_benchmark agentic_search_benchmark 780 no -
2026-06-13T14:40:00+08:00 manual 用户继续丢链接和观点,要求进入团队知识库 harness_knowledge_ingest - 350 yes 漏触发:harness_knowledge_ingest
分享链接和观点时漏触发知识摄取包,需要把“继续沉淀/进入团队知识库”加入触发样例。
2026-06-13T15:25:00+08:00 manual 把实验报告注册表同步到项目研发进度看板 project_status_dashboard, harness_knowledge_ingest project_status_dashboard, harness_knowledge_ingest 860 no -
2026-06-13T16:05:00+08:00 manual 实现任务技能包使用日志 dashboard project_status_dashboard project_status_dashboard 680 no -
2026-06-13T17:10:00+08:00 task_skill_runtime 用本地 task skill runtime 自动选择任务包并追加 usage log 事件 project_status_dashboard project_status_dashboard 421 no -
2026-06-13T07:23:29.838381+00:00 task_skill_runtime 继续沉淀这条链接,进入团队知识库。 harness_knowledge_ingest harness_knowledge_ingest 423 no -
2026-06-13T19:40:00+08:00 task_skill_runtime 主动询问前检查 route_ask_request 选中的 owner、企微消息和 pending knowledge card,并补 ask_router_review 任务技能包。 ask_router_review ask_router_review 453 no -

当前结论

  1. 任务技能包已经有离线 benchmark,但运行期仍需要 usage log,否则无法知道真实任务中是否误触发、漏触发或需要人工纠正。
  2. 当前样例里主要问题各出现一次:project_status_dashboard 在只读场景误触发,harness_knowledge_ingest 在用户分享链接时漏触发。
  3. usage log 不替代实验报告。它记录实际使用信号,后续应反向更新 manifest、negative_terms、任务包 gotchas 和 benchmark fixture。
  4. P0 已接入本地 task_skill_runtime,可以自动选择任务包并追加 usage event;ask_router_review 已进入真实使用日志,接入企微或线上 Agent runtime 后继续复用同一 schema。

下一步

  1. 把本地 runtime 接入线上 Agent / 企微 / Web runtime,自动记录 selected/expected、tokens 和人工纠正。
  2. 将误触发和漏触发样例反写到 task_skill_package_eval fixture。
  3. 把已完成的 tool_gateway_safety case 纳入同一 usage dashboard,并继续记录 ask_router_review 的问错人、节流和回复解析纠正信号。