跳转至

Task Skill Feedback Loop

生成时间:2026-06-14

本页把任务技能包使用日志中的误触发、漏触发、人工纠正和 token 成本,转成可 review 的技能包改进建议。它服务 Ontology 本体层的可执行知识治理:先让真实协作问题变成脱敏 case,再让 case 反向改进 Skill、manifest、gotchas 和 benchmark。

数据分类:local_internal_demo_sanitized_feedback。报告不保存原始聊天全文、截图、临时链接 token、完整日志或完整 SHA。

真实 Case 处理规则

真实协作问题优先进入 Evidence,再脱敏成 Ontology/Runtime 可验证 case。

真实问题进入 demo 时只保留问题类型、触发条件、工程后果、复现入口和验证信号;不保留原始聊天全文、截图、临时链接 token、完整日志、完整 SHA 或私域材料。

总览

指标 数值
event_count 12
trigger_precision 91.7%
trigger_recall 91.7%
human_correction_rate 16.7%
false_positive_count 1
false_negative_count 1
avg_context_tokens 608.1
feedback_item_count 4
review_handoff_count 2
unsafe_payload_leaks 0

改进建议

ID Package Signal Severity Target Evidence 建议动作
feedback-negative-terms-project_status_dashboard project_status_dashboard false_positive medium framework/task_skills/packages/project_status_dashboard/manifest.json#negative_terms usage-2026-06-13-005 补充 negative_terms 或 task_type guard,让只读查询、解释现有页面、状态查看等场景不触发该技能包。
feedback-trigger-terms-harness_knowledge_ingest harness_knowledge_ingest false_negative high framework/task_skills/packages/harness_knowledge_ingest/manifest.json#trigger_terms usage-2026-06-13-007 补充 trigger_terms、任务示例或 runtime signals,让资料、链接、观点和“进入团队知识库”的表达稳定触发知识摄取。
feedback-token-budget-agentic_search_benchmark agentic_search_benchmark high_context_cost medium framework/task_skills/packages/agentic_search_benchmark/manifest.json#references - 检查 SKILL.md、references 和 templates 的渐进披露边界,优先加载入口说明,只在需要时加载 gotchas 或模板。
feedback-token-budget-harness_knowledge_ingest harness_knowledge_ingest high_context_cost medium framework/task_skills/packages/harness_knowledge_ingest/manifest.json#references - 检查 SKILL.md、references 和 templates 的渐进披露边界,优先加载入口说明,只在需要时加载 gotchas 或模板。

Review Handoff

Handoff Status Reason
task_skill_cost_review candidate 需要人工确认后再修改 manifest、gotchas、eval fixture 或成本阈值。
task_skill_manifest_review candidate 需要人工确认后再修改 manifest、gotchas、eval fixture 或成本阈值。

当前结论

  1. 使用日志已经能把真实协作中的误触发和漏触发定位到具体技能包。
  2. 当前不直接自动修改 manifest,而是生成 review handoff,并由 Task Skill Review Bridge 写入 Semantic Review Queue,避免把单次纠错过拟合成全局规则。
  3. token 成本信号会推动技能包继续拆分入口说明、gotchas 和模板,保持渐进披露。
  4. 真实问题进入 demo 后必须只保留脱敏后的工程信号,这样既能复跑验证,又不会把私域原文打包进 Framework。

下一步

  1. 由 reviewer 确认后,把 false_positive / false_negative 建议反写到 manifest、gotchas 和 task_skill_package_eval fixture。
  2. 接入线上 Agent、企微或 Web runtime 后,继续记录 selected/expected、token、人工纠正和问错人反馈。
  3. 保持 Task Skill Review Bridge 门禁通过;下一步把同一 handoff 接入真实 PR review comment adapter。