Task Skill Feedback Loop¶
生成时间:2026-06-14
本页把任务技能包使用日志中的误触发、漏触发、人工纠正和 token 成本,转成可 review 的技能包改进建议。它服务 Ontology 本体层的可执行知识治理:先让真实协作问题变成脱敏 case,再让 case 反向改进 Skill、manifest、gotchas 和 benchmark。
数据分类:local_internal_demo_sanitized_feedback。报告不保存原始聊天全文、截图、临时链接 token、完整日志或完整 SHA。
真实 Case 处理规则¶
真实协作问题优先进入 Evidence,再脱敏成 Ontology/Runtime 可验证 case。
真实问题进入 demo 时只保留问题类型、触发条件、工程后果、复现入口和验证信号;不保留原始聊天全文、截图、临时链接 token、完整日志、完整 SHA 或私域材料。
总览¶
| 指标 | 数值 |
|---|---|
| event_count | 12 |
| trigger_precision | 91.7% |
| trigger_recall | 91.7% |
| human_correction_rate | 16.7% |
| false_positive_count | 1 |
| false_negative_count | 1 |
| avg_context_tokens | 608.1 |
| feedback_item_count | 4 |
| review_handoff_count | 2 |
| unsafe_payload_leaks | 0 |
改进建议¶
| ID | Package | Signal | Severity | Target | Evidence | 建议动作 |
|---|---|---|---|---|---|---|
feedback-negative-terms-project_status_dashboard |
project_status_dashboard |
false_positive |
medium | framework/task_skills/packages/project_status_dashboard/manifest.json#negative_terms |
usage-2026-06-13-005 | 补充 negative_terms 或 task_type guard,让只读查询、解释现有页面、状态查看等场景不触发该技能包。 |
feedback-trigger-terms-harness_knowledge_ingest |
harness_knowledge_ingest |
false_negative |
high | framework/task_skills/packages/harness_knowledge_ingest/manifest.json#trigger_terms |
usage-2026-06-13-007 | 补充 trigger_terms、任务示例或 runtime signals,让资料、链接、观点和“进入团队知识库”的表达稳定触发知识摄取。 |
feedback-token-budget-agentic_search_benchmark |
agentic_search_benchmark |
high_context_cost |
medium | framework/task_skills/packages/agentic_search_benchmark/manifest.json#references |
- | 检查 SKILL.md、references 和 templates 的渐进披露边界,优先加载入口说明,只在需要时加载 gotchas 或模板。 |
feedback-token-budget-harness_knowledge_ingest |
harness_knowledge_ingest |
high_context_cost |
medium | framework/task_skills/packages/harness_knowledge_ingest/manifest.json#references |
- | 检查 SKILL.md、references 和 templates 的渐进披露边界,优先加载入口说明,只在需要时加载 gotchas 或模板。 |
Review Handoff¶
| Handoff | Status | Reason |
|---|---|---|
task_skill_cost_review |
candidate | 需要人工确认后再修改 manifest、gotchas、eval fixture 或成本阈值。 |
task_skill_manifest_review |
candidate | 需要人工确认后再修改 manifest、gotchas、eval fixture 或成本阈值。 |
当前结论¶
- 使用日志已经能把真实协作中的误触发和漏触发定位到具体技能包。
- 当前不直接自动修改 manifest,而是生成 review handoff,并由 Task Skill Review Bridge 写入 Semantic Review Queue,避免把单次纠错过拟合成全局规则。
- token 成本信号会推动技能包继续拆分入口说明、gotchas 和模板,保持渐进披露。
- 真实问题进入 demo 后必须只保留脱敏后的工程信号,这样既能复跑验证,又不会把私域原文打包进 Framework。
下一步¶
- 由 reviewer 确认后,把 false_positive / false_negative 建议反写到 manifest、gotchas 和 task_skill_package_eval fixture。
- 接入线上 Agent、企微或 Web runtime 后,继续记录 selected/expected、token、人工纠正和问错人反馈。
- 保持 Task Skill Review Bridge 门禁通过;下一步把同一 handoff 接入真实 PR review comment adapter。