如何更科学、方向可控的实现 Skill 的「自进化」- Digest

一句话总结

Agent Skill 进化正从”经验主义”走向”科学工程”路径——三大里程碑式方案:Trace2Skill(归纳法聚合 + 硬约束合并)/ EvoSkill(三角色闭环 + 前沿集合 + 验证 gate + 负反馈历史)/ SkillOpt(Skill 即参数 + 学习率约束 + 验证 gate + 动量 + 元学习);实际业务中混合策略(Trace2Skill 快速基线 + EvoSkill 扩充 + SkillOpt 精修)可能是更好的解法

三大范式速查

范式 论文 核心思路 类比
归纳法 Trace2Skill(阿里千问) 并行看大量轨迹 → 合并为完整无冲突 Skill 专家开会合并意见
自验证 EvoSkill(Sentient Labs) 三角色闭环 + 前沿集合 + 验证 gate 自然选择进化
训练范式 SkillOpt(微软+高校) Skill 即参数 + 学习率 + 验证 gate + 动量 带 momentum 的 SGD

8 个知识节点速查

节点 一句话
Skill-自进化痛点 单通轨迹会”带偏” / 企业级”质量飘忽不定、越优化越差”
离线优化在线验证 企业级标准做法 / 本质仍由人指导、不是真正自进化
Trace2Skill-归纳法 并行 A+/A− 分析师 + 层次归并 + 硬约束
EvoSkill-自验证 三角色 Pipeline + 容量固定精英池 + 验证 gate
SkillOpt-训练范式 Skill 即参数 + 学习率约束 + 6 大核心组件
前沿集合-Frontier 容量固定精英池,跑赢最弱才进入
Skill-即参数 把文本优化对标为模型训练,引入优化器 Agent
可验证性-飞轮 模型效果衡量越可验证 = 迭代越快(Claude/GPT/Qwen 2026 提速根因)

5 个金句

3 大学派核心差异

维度 Trace2Skill(归纳) EvoSkill(自验证) SkillOpt(训练)
关键动作 并行处理 + 层次化合并 前沿集合 + 失败驱动提案 学习率约束 + 验证 gate + 负反馈 buffer + 元学习
学习率
动量
元学习 反馈历史 H Meta-Skill
Harness ReAct 底座 Harness Harness 无关
优势 一次成型,效率高 可解释性强 可控性最强
风险 合并器要够强 收敛慢 组件太多,强依赖验证集

选型建议

核心洞察:可验证性 = Agent 飞轮

Claude / GPT / Qwen 2026 年迭代越来越快 = 模型效果衡量越来越可验证

Agent 飞轮 = “Agent 产生轨迹 → 自动化验证给出即时反馈 → 根据反馈快速调整 Skill → 新 Skill 再次进入验证循环”

只有验证闭环打通,迭代速度才能从”人力驱动”转变为”算力驱动”

与已有文章的关联

5 个对 Seetong 团队可借鉴的动作

  1. 把团队”调 prompt 经验”沉淀为 Skill(不只停留”群里贴一个 prompt”)
  2. 收集”修 bug / 处理报警”轨迹(类似 Trace2Skill 思路)
  3. 核心脚本的”最佳实践”用 SkillOpt 思路打磨(bounded 编辑 + 验证 + 灰度)
  4. 建立内部评测体系(AI Coding 类天然可验证——编译通过/单元测试通过/截图比对)
  5. 关键判断(spec / 边界 / 验证回路)做”可验证化”(从”PM 体感”到”30 个用户样本的对照评测”)