Claude Code 一周年回顾:Agent 自主验证 / Routine 异步化 / Auto Mode 反直觉安全 / Context 极简主义

核心结论(一句话)

Claude Code 用一年时间从 Slack 两个赞走到「人人写代码 / Agent 自动修 bug / 一半工作在手机上完成」。Boris Cherny + Cat Wu 一周年回顾核心 10 点:①Agent 自主验证(不是单元测试,而是 Claude 自己在 bash 里测自己写的东西)②人人写代码(PM/设计师/财务都用)③Routine 让 Claude 从同步变异步 ④Auto Mode 比手动更安全(Sonnet 4.6 分类器判断权限)⑤两次认知跃迁(写代码 → Agent → Loop)⑥一半工程工作在手机上完成 ⑦Context 极简主义(给最少 system prompt + 最少 tools)⑧源码泄露风波(59.8MB source map 暴露 51.2 万行代码 + KAIROS/Undercover/内部代号)⑨一年 9 个功能里程碑 ⑩下一年:Agent 越来越自主,跑几百几千个 Agent 早就不稀奇。

分类提炼

知识节点(10 个独立概念)

关联图谱

上游(基于 / 来自)

下游(应用于 / 验证于)

同级(横向 / 并列)

正文要点(10 条)

一、两个赞的起点 → 一年走完产品一辈子

维度 数据
2025/2 Research Preview,搭配 Claude 3.7 Sonnet
2025/5/22 Claude 4 家族发布,Claude Code 正式发布
初始反馈 Slack 内部只有 2 个赞
Cat 当时评价 “做得还挺不错”(委婉版 = “不太行”)

“从那天起,一切开始加速。”

二、Agent 自主验证,不是单元测试

常见误解:单元测试 / lint / 类型检查 Agent 层面的验证:能不能自己跑起来,验证自己写的东西

阶段 验证能力
Opus 4 Claude 打开一个 Claude CLI,在 bash 里自己测自己写的功能
现在 iOS 模拟器 / Android 模拟器 / 桌面端 computer use 循环跑验证成常规
Cat 团队实践 桌面开发 Skill,computer use 在应用里点来点去,发现 bug 就修,修完再验证

“如果 Claude 能把经验写进 CLAUDE.md 或做成 Skill,Claude 就能一直跑下去。”

自我进化的闭环:

1
发现 bug → 修复 → 验证 → 把经验更新到 Skill → 下次直接用

三、人人都在写代码

角色 写代码状态
Cat(PM) 写代码
设计师 Megan 直接提 PR 修按钮(“写得还挺好的”)
企业客户的 PM 直接在应用里改功能
企业客户的财务 在 Claude Code 里跑预测模型
企业客户的数据科学家 屏幕上全是 Claude Code

Boris 的判断:未来每个人都既是 PM 又是工程师。工程师越来越多地端到端交付产品,从想法到实现到发布到和法务、市场协调,一个人走完全流程。

四、Routine 的威力:Claude 从同步变异步

Voice Mode 工程师的两个 Routine:

  1. 自动监听所有关于 Voice Mode 的 GitHub issue 和 bug report → 提交修复 PR → ping 他 review
  2. 监控所有超过 5 小时没人回应的 bug report → 自动提交修复

“我发了一个小功能,有个边界情况我没注意到。有人报了 bug,我打算晚上去修。结果我的 Claude 告诉我:「等等,另一个 Claude 已经修了。」”

“回想一下以前,你得自己回复 code review 评论,自己修 CI,自己 rebase。这些我已经很久很久没做过了。”

关键定位:Routine 是 Agent SDK 之后第一个”显而易见的应用场景”,让 Claude 从同步工具变成异步基础设施

五、最爱 Auto Mode(反直觉安全设计)

Auto Mode 的核心设计:把权限判断交给另一个模型(Sonnet 4.6)做安全审查。

反直觉论点:auto mode 比手动审核每一条权限提示更安全。

Anthropic 上线前的安全工程:

“这不只是防范已知漏洞,而是防范我们能构造出的最聪明的攻击。”

六、两次认知跃迁 + 一半工作在手机上

两次认知跃迁:

1
2
跃迁 1:写代码 → 跟 Agent 说话(Agent 写代码)
跃迁 2:跟 Agent 说话 → 跟 Loop/Routine 说话(Loop 调度 Agent)

手机编程:

终端标签对比: | 维度 | 一年前 | 现在 | |—|—|—| | 终端标签 | 6 个 | 1 个 | | git checkout | 6 个同一仓库切换 | 桌面应用自动管理 worktree | | 状态监控 | 来回切换 | Agent View 一屏全看 |

七、Context 极简主义

“以前 Sonnet 3.5 时代你得做 prompt engineering,Opus 4 时代你得做 context engineering。但现在的模型,这些都不需要了。”

Cat 的实践:告诉模型它需要知道的,剩下的让它自己搞定。

“给模型太多 context,就像在微观管理它。有时候模型知道更好的方法来达到同一个目标。”

八、源码泄露风波(2026/3/31)

事件:

社区扒出的料:

内部代号 含义
Tengu Claude Code 项目代号
Fennec Opus 4.6
Capybara 疑似 Mythos 模型

未发布功能:

功能 描述
KAIROS 自主守护进程(后台 daemon),源码引用 150+ 次;监听 GitHub webhook、推送通知
autoDream KAIROS 内置,空闲时自动整合记忆
Undercover Mode ~90 行代码;员工操作非内部仓库时自动激活,去掉 Co-Authored-By 署名,禁止提及内部代号
隐藏功能开关 44 个
未发布功能 20 多个

社区反应:

漏洞暴露:

正面影响:也让社区第一次看到 Claude Code 内部复杂度 — 40+ 注册工具 / 5 种 context 压缩策略 / 23 个 bash 安全检查 / 14 个缓存破坏向量。

Boris:”这是一个人为错误。没有人因此被开除,犯错的人仍然拥有公司的完全信任。这是一个流程漏洞,任何人都可能犯。”

九、一年功能时间线(9 个里程碑)

时间 里程碑
2025/5 正式发布,搭配 Opus 4
2025/9 Claude Code 2.0(Checkpoints / VS Code 扩展 / Hooks 系统 / GitHub Actions 集成 / Agent SDK)
2025/10 网页端(claude.ai/code)+ 沙箱隔离 + Skills 系统
2025/11 Opus 4.5 + 67% 降价 + context compaction
2026/1 v2.1.0(1096 commit)+ /teleport + 多语言
2026/2 Opus 4.6 + Agent Teams + Remote Control
2026/3 Voice Mode + /loop + auto mode
2026/4 桌面应用重设计 + Routines 正式发布 + worktree 隔离 + Opus 4.7 + push notifications
2026/5 Agent View + Opus 4.8 + Dynamic Workflows

“一年之内,从一个终端聊天工具变成了一个可以自主运行、自我验证、多实例协作的 AI 编程基础设施。”

十、下一年

Boris:”一年后的使用方式如果还跟现在一样,我反而会觉得奇怪。Agent 运行时间越来越长,越来越自主,同时跑几百上千个 Agent 早就不稀奇了。下一年的形态,一定跟现在完全不同。”

Cat:”这些想法不会只从我们这里来,而是会从整个社区里涌现出来。”

我的理解

相关链接