My Thoughts on Loop Engineering(原文摘要)

一句话总结

Loop 工程的真正瓶颈不是生成器(编排),而是验证器(闸门)——一个 loop = 生成器 + 验证器,瓶颈从来在验证器这一侧;今天真正出活的是带评估闸门的封闭循环,而不是烧 token 的开放循环。

8 条核心观点

  1. Loop = 生成器 + 验证器:被当成”循环工程”在卖的那个技能是真的,只是它瞄错了系统的一半——设计编排现在简单,工具基本替你做了;还难、还得手动、还真正决定结果的是评估闸门。
  2. 开放循环 vs 封闭循环:开放循环给大片探索空间,真正新颖的产出来自这里,但烧 token + 评判标准一松就变废料机;封闭循环钉死步骤/评估/停止条件,能在正常预算下跑完。今天真正能出结果的是封闭循环——评估闸门挡住”自信的错误答案”传下一轮。
  3. “那个框,才是产品”:大部分讲循环画”发现-规划-执行-验证”图,但没人对”验证”框说具体的。其余的都是管道,验证框才是产品
  4. 内循环成熟,外循环半残:内循环(任务内:改完→写测试→跑→修边界→全绿)大多数 agent 都会做;外循环(跨会话:失败教训写进 SKILL.md/AGENTS.md,下次读到从一开始做对)只搭了一半——把对的教训、用对的颗粒度、写到对的地方比听起来难得多,大量价值正摊在这块桌子上没人捡。
  5. “先仪表化闸门再去扩大循环”:你没法改进一个你没在测量的循环。先把闸门仪表化,再去扩大循环——否则只是在更快地生成错误答案。
  6. Bun 75 万行 Zig → Rust 案例:Jarred Sumner 用 Claude Code 动态工作流移植,11 天合并,99.8% 现有测试通过;但 Anthropic 自家说”还没上生产”——Samuel 说这是整个发布里最诚实的一句话。绿色 ≠ 正确
  7. “产出的质量被验证器的质量封顶”:99.8% 通过已有测试 = 跑分结果(只说明复现了旧测试早就描述过的行为);生产 = 那些还没人写过测试的行为。这条鸿沟是整个行业反复栽进去的。
  8. “别再设计提示词,去设计验证者”:agent 时代的管理 = 设计约束(验证闸门),和管人是同一件事。深思圈补刀:写作/策略/设计/品味这些”验证者无法降维成自动闸门”的领域,你以为在搭循环,其实只是把”自己看一眼”换了个名字;外循环的”持久化教训”判断哪条对也是验证问题。

关键数字/参数

数字/范围 用途
Loop 组成 1 个生成器 + 1 个验证器 形式化定义
Bun 移植规模 ~75 万行 Rust 代码 旗舰案例
Bun 移植耗时 Anthropic: 11 天合并 / Sumner 自述: 6 天 效率指标
Bun 测试通过率 99.8% 跑分结果
内循环检查数 ≥ 1(写测试+跑测试+修边界) 弱/强 agent 区别
经验值 矛盾不在,内循环已成熟,外循环还半残 价值分布判断

核心金句

  1. “一个 loop = 生成器 + 验证器,而瓶颈从来在验证器这一侧。”(全文核心命题)
  2. “那个框,才是产品。其余的都是管道。”(验证 vs 编排)
  3. “一个跑成绿色的循环,不是一个正确的循环。它只是一个满足了你给它的那个验证器的循环。产出的质量,被那个验证器的质量封顶——一分都高不上去。”(绿色 ≠ 正确)
  4. “你没法改进一个你没在测量的循环。先把闸门仪表化,再去扩大循环——否则你只是在更快地生成错误答案。”(测量前置)
  5. “别再设计提示词,去设计验证者。别再盯着提示词——真正该被精心设计的,是那道验证闸门。”(agent 时代的管理本质)
  6. “在你给 AI 套上循环之前,先老实问自己一句——这件事,我有没有一个真能信的验证器?没有的话,自动化的不是产出,是更快的错。”(深思圈补刀)

关联图谱

上游(基于 / 来自)

下游(应用于 / 验证于)

同级(横向 / 并列)

备注与限制