任务技能包使用日志¶
更新日期:2026-06-13
记录 OrgReOrg / Harness 当前 P0 任务技能包在本地研用测过程中的触发质量、上下文成本和人工纠正信号,用于反向改进 manifest、gotchas、benchmark 和 dashboard。
数据分类:local_internal_demo。本页只记录任务摘要、包 ID、token 和人工纠正,不保存原始聊天全文。
总览¶
| 指标 | 数值 |
|---|---|
| event_count | 12 |
| trigger_precision | 91.7% |
| trigger_recall | 91.7% |
| exact_match_rate | 83.3% |
| human_correction_rate | 16.7% |
| avg_context_tokens | 608.1 |
| total_context_tokens | 7297 |
当前样例中 human_correction_rate=16.7%,误触发 1 次,漏触发 1 次。
包级信号¶
| 包 | 触发 | 期望 | TP | FP | FN | 人工纠正 | Avg Tokens |
|---|---|---|---|---|---|---|---|
agentic_search_benchmark |
2 | 2 | 2 | 0 | 0 | 0 | 800.0 |
ask_router_review |
1 | 1 | 1 | 0 | 0 | 0 | 453.0 |
harness_knowledge_ingest |
3 | 4 | 3 | 0 | 1 | 1 | 734.3 |
project_status_dashboard |
6 | 5 | 5 | 1 | 0 | 1 | 591.8 |
事件明细¶
| 时间 | 来源 | 任务 | 期望包 | 实际包 | Tokens | 人工纠正 | 备注 |
|---|---|---|---|---|---|---|---|
| 2026-06-13T10:10:00+08:00 | manual | 用户分享外部资料并要求按知识沉淀流程处理 | harness_knowledge_ingest | harness_knowledge_ingest | 920 | no | - |
| 2026-06-13T10:45:00+08:00 | manual | 更新研发进度总览并生成 MkDocs 页面 | project_status_dashboard | project_status_dashboard | 640 | no | - |
| 2026-06-13T11:30:00+08:00 | manual | 对比 Agentic Search 的 Postgres、OpenSearch 和渐进披露方案 | agentic_search_benchmark | agentic_search_benchmark | 820 | no | - |
| 2026-06-13T12:20:00+08:00 | manual | 回答团队成员从哪里看当前项目进度 | project_status_dashboard | project_status_dashboard | 540 | no | - |
| 2026-06-13T13:05:00+08:00 | manual | 只读网站内容并解释当前页面,不需要更新 dashboard | - | project_status_dashboard | 410 | yes | 误触发:project_status_dashboard 只读查询不应触发 project_status_dashboard,需要 negative_terms 覆盖“只看一下/只解释”。 |
| 2026-06-13T14:00:00+08:00 | manual | 扩展 SearchConnector conformance 并复用同一验收集 | agentic_search_benchmark | agentic_search_benchmark | 780 | no | - |
| 2026-06-13T14:40:00+08:00 | manual | 用户继续丢链接和观点,要求进入团队知识库 | harness_knowledge_ingest | - | 350 | yes | 漏触发:harness_knowledge_ingest 分享链接和观点时漏触发知识摄取包,需要把“继续沉淀/进入团队知识库”加入触发样例。 |
| 2026-06-13T15:25:00+08:00 | manual | 把实验报告注册表同步到项目研发进度看板 | project_status_dashboard, harness_knowledge_ingest | project_status_dashboard, harness_knowledge_ingest | 860 | no | - |
| 2026-06-13T16:05:00+08:00 | manual | 实现任务技能包使用日志 dashboard | project_status_dashboard | project_status_dashboard | 680 | no | - |
| 2026-06-13T17:10:00+08:00 | task_skill_runtime | 用本地 task skill runtime 自动选择任务包并追加 usage log 事件 | project_status_dashboard | project_status_dashboard | 421 | no | - |
| 2026-06-13T07:23:29.838381+00:00 | task_skill_runtime | 继续沉淀这条链接,进入团队知识库。 | harness_knowledge_ingest | harness_knowledge_ingest | 423 | no | - |
| 2026-06-13T19:40:00+08:00 | task_skill_runtime | 主动询问前检查 route_ask_request 选中的 owner、企微消息和 pending knowledge card,并补 ask_router_review 任务技能包。 | ask_router_review | ask_router_review | 453 | no | - |
当前结论¶
- 任务技能包已经有离线 benchmark,但运行期仍需要 usage log,否则无法知道真实任务中是否误触发、漏触发或需要人工纠正。
- 当前样例里主要问题各出现一次:
project_status_dashboard在只读场景误触发,harness_knowledge_ingest在用户分享链接时漏触发。 - usage log 不替代实验报告。它记录实际使用信号,后续应反向更新 manifest、negative_terms、任务包 gotchas 和 benchmark fixture。
- P0 已接入本地
task_skill_runtime,可以自动选择任务包并追加 usage event;ask_router_review已进入真实使用日志,接入企微或线上 Agent runtime 后继续复用同一 schema。
下一步¶
- 把本地 runtime 接入线上 Agent / 企微 / Web runtime,自动记录 selected/expected、tokens 和人工纠正。
- 将误触发和漏触发样例反写到
task_skill_package_evalfixture。 - 把已完成的
tool_gateway_safetycase 纳入同一 usage dashboard,并继续记录ask_router_review的问错人、节流和回复解析纠正信号。