Agent Skill 进化正从”经验主义”走向”科学工程”路径——三大里程碑式方案:Trace2Skill(归纳法聚合 + 硬约束合并)/ EvoSkill(三角色闭环 + 前沿集合 + 验证 gate + 负反馈历史)/ SkillOpt(Skill 即参数 + 学习率约束 + 验证 gate + 动量 + 元学习);实际业务中混合策略(Trace2Skill 快速基线 + EvoSkill 扩充 + SkillOpt 精修)可能是更好的解法。
| 范式 | 论文 | 核心思路 | 类比 |
|---|---|---|---|
| 归纳法 | Trace2Skill(阿里千问) | 并行看大量轨迹 → 合并为完整无冲突 Skill | 专家开会合并意见 |
| 自验证 | EvoSkill(Sentient Labs) | 三角色闭环 + 前沿集合 + 验证 gate | 自然选择进化 |
| 训练范式 | SkillOpt(微软+高校) | Skill 即参数 + 学习率 + 验证 gate + 动量 | 带 momentum 的 SGD |
| 节点 | 一句话 |
|---|---|
| Skill-自进化痛点 | 单通轨迹会”带偏” / 企业级”质量飘忽不定、越优化越差” |
| 离线优化在线验证 | 企业级标准做法 / 本质仍由人指导、不是真正自进化 |
| Trace2Skill-归纳法 | 并行 A+/A− 分析师 + 层次归并 + 硬约束 |
| EvoSkill-自验证 | 三角色 Pipeline + 容量固定精英池 + 验证 gate |
| SkillOpt-训练范式 | Skill 即参数 + 学习率约束 + 6 大核心组件 |
| 前沿集合-Frontier | 容量固定精英池,跑赢最弱才进入 |
| Skill-即参数 | 把文本优化对标为模型训练,引入优化器 Agent |
| 可验证性-飞轮 | 模型效果衡量越可验证 = 迭代越快(Claude/GPT/Qwen 2026 提速根因) |
“单纯的基于个例轨迹来实现自动更新,同样很容易让 Skill ‘过拟合’,陷入局部情况,甚至’越优化越差’。”
“在企业级场景下,靠体感是不可持续且无法规模化(Scaling)的。”
“Agent 进化从经验主义走向科学工程”
“可验证闭环一旦打通,迭代速度才能从’人力驱动’转变为’算力驱动’。”
“也许,混合策略可能是比较好的解法——用 Trace2Skill 快速生成基线,用 EvoSkill 持续扩充技能库,再对核心瓶颈模块使用 SkillOpt 进行精细打磨。”
| 维度 | Trace2Skill(归纳) | EvoSkill(自验证) | SkillOpt(训练) |
|---|---|---|---|
| 关键动作 | 并行处理 + 层次化合并 | 前沿集合 + 失败驱动提案 | 学习率约束 + 验证 gate + 负反馈 buffer + 元学习 |
| 学习率 | ❌ | ❌ | ✅ |
| 动量 | ❌ | ❌ | ✅ |
| 元学习 | ❌ | 反馈历史 H | Meta-Skill |
| Harness | ReAct | 底座 Harness | Harness 无关 |
| 优势 | 一次成型,效率高 | 可解释性强 | 可控性最强 |
| 风险 | 合并器要够强 | 收敛慢 | 组件太多,强依赖验证集 |
Claude / GPT / Qwen 2026 年迭代越来越快 = 模型效果衡量越来越可验证
Agent 飞轮 = “Agent 产生轨迹 → 自动化验证给出即时反馈 → 根据反馈快速调整 Skill → 新 Skill 再次进入验证循环”
只有验证闭环打通,迭代速度才能从”人力驱动”转变为”算力驱动”。