面向 Skills 编程——淘宝企业购端到端研发提效实践(原文摘要)
一句话总结
将领域知识、工作流、约束规则封装为可版本化的 Skills 单元,让 LLM 在确定性框架内生成代码——从”人写代码”到”人沉淀 Skills,AI 写代码”;商品域端到端交付周期 23.5 人日 → 8 人日(提效 65%),代码一次生成成功率 90%;质量瓶颈不在模型,在知识工程——50% → 90% 全靠知识注入和约束迭代,不是换更强的模型。
8 条核心观点
- 从”配置化编程”到”面向 Skills 编程”:DDD 分层 + 配置化在传统人写代码模式下行之有效,但面对高频定制化需求时配置化的参数空间爆炸;新范式核心是”人写 Skills,LLM 基于 Skills 写代码“,程序员从”实现逻辑”上升为”定义 Skills”。
- Skills = AI 行为的契约:类比”接口/抽象类”定义代码契约,Skills 定义 AI 行为契约——告诉 LLM”做什么、怎么做、不能做什么”,让大模型从”知道分子”成为”行动专家”。
- Skill 构建方法论(4 步):识别重复模式 → 封装不变量为 Skills → 将变化的部分作为输入 → LLM 在约束下执行——垂直领域的 Skills 本身不通用,但构建 Skill 的方法论是通用的。
- 五阶段演进路径:Vibe Coding(对话驱动,2025.8)→ Prompt 模板(标准化语义翻译器,2025.9,采纳率 70%)→ SDD 规范驱动(2025.12,可用率 40% → 80%)→ Skill 沉淀(经验固化,2026.1-2)→ 云端集成(端到端产品,2026.2 探索中);每一阶段都是对前一阶段”天花板”的突破。
- “质量瓶颈不在模型,在知识工程”:50% → 90% 的提升全部来自知识注入和约束迭代,不是换更强的模型——领域知识(映射规则/API 签名/模式判定)不会从训练数据中涌现,必须显式注入。
- 确定性工程 + 不确定性 AI = 可控流水线:高精度环节用脚本(接口提取),模型不稳定的用架构拆分绕过(推拉分离/子 Skill),反复出错的沉淀为约束——三者配合把”不可控的对话”变成”可复现的流水线”。
- 三段式提效数据:代码一次生成成功率 50% → 90%;AI 生成代码可用率 40% → 80%(SDD 阶段);商品域端到端交付周期 23.5 人日 → 8 人日(整体提效 65%);Skill 体系覆盖评估→技术方案→编码全链路 15 个接口商品域全流程跑通;11 类高频问题全部沉淀为 Skill 约束,不再复现。
- 三层架构 + ADJUSTMENT_PLAN:原子能力层 + 模板层 + 适配层(AI 只聚焦适配层逻辑,代码量减少 60%,多客户并行零冲突);ADJUSTMENT_PLAN 机制(发现→定位 Skill→补约束→验证→交叉验证)闭环 11 类问题;事前约束 → 运行时约束 → 事后审查 → 人工卡点 四层质量防线。
关键参数/数字
| 项 |
数字/范围 |
用途 |
| 商品域交付周期 |
23.5 → 8 人日 |
整体提效 65% |
| 代码一次生成成功率 |
50% → 90% |
全靠知识工程(非换模型) |
| AI 生成代码可用率(SDD 阶段) |
40% → 80% |
SDD 方法论效果 |
| AI 生成代码采纳率(Prompt 模板阶段) |
70% |
标准化翻译器效果 |
| 适配层代码量减少 |
-60% |
三层架构聚焦 AI 工作范围 |
| 原子服务复用 |
90%+ 对接场景 |
三层架构效果 |
| 接口覆盖 |
15/15 |
评估报告审查 Skill |
| 字段遗漏率 |
0% |
评估报告审查 Skill |
| 高频问题闭环 |
11 类 → 0 复发 |
ADJUSTMENT_PLAN 效果 |
| Spec 编写人工交互 |
3-5 轮/单 Spec |
SDD 流程成本 |
| kn-fetcher CLI 基础命令 |
6 个(pull/list/search 等) |
知识分发 |
| 实践周期 |
2025.8 - 2026.2 |
近半年系统性探索 |
核心金句
- “质量瓶颈不在模型,在知识工程。50% → 90% 的提升全部来自知识注入和约束迭代,不是换更强的模型。”(全文核心)
- “如果说传统编程中’接口/抽象类’定义了代码的契约,那么 Skills 就是定义了 AI 行为的契约。”(Skills 定义)
- “确定性工程 + 不确定性 AI = 可控的研发流水线。”(三者配合)
- “代码分层越清晰,AI 生成质量越高。”(架构先行)
- “每一阶段都是对前一阶段’天花板’的突破。”(五阶段演进)
- “Skills 是 AI 研发的最小可复用单元:类比软件工程中’函数/类’封装逻辑,Skill 封装的是工作流 + 领域知识 + 约束规则。”(单元类比)
- “在 Skills 编程体系里,Skills 是人类最佳实践的能力封装。开发者的角色从 AI 辅助研发,变成辅导 AI 进行研发。”(角色转变)
- “AI 不是替代者,而是为我们工作的数字专家,帮助我们从重复劳动中解放,聚焦更高价值的创造。”(AI 定位)
关联图谱
上游(基于 / 来自)
- DDD 分层 + 配置化编程:经典范式,天花板在”高频定制化时 SPI 扩展点变手写适配”
- Anthropic Agent Skills 标准:SKILL.md + references/ + scripts/ 三件套 + 渐进式加载
- OpenSpec:SAAS 项目中验证 Spec 编程可行性
- everything-claude-code / superpowers 等开源项目:借鉴的最佳实践
下游(应用于 / 验证于)
- 淘宝企业购客户对接场景:商品(信息同步/类目映射)/交易(订单/物流/逆向)/结算(对账/发票)三大业务域
- 15 个接口商品域全流程跑通(评估→技术方案→编码):xx 项目
- OneDay + Aone 沙箱端到端生码平台:2026.2 探索中
- 企业内 AI Agent 产品三大方向:AI 运营 / AI 研发 / AI 产品
同级(横向 / 并列)
- 阿里淘系同源:[[阿里云开发者-淘宝主播Agent的Harness工程实战]] 主播 Agent = 实时交互高风险 / [[阿里妹-端到端业务需求专家Agent-4层架构8步流程]] 业务需求 Agent 4 层×8 步
- Skill 主线:[[Skill-Self-Evolution]] / [[Agent Skills 系统性综述]] / [[谷歌开源 agent-skills]] / [[Addy-Osmani-agent-skills-设计哲学]] / [[PM-Skills-Marketplace-产品经理必备skill]] / [[买了一样的AI为什么别家的比你的强]]
- SDD/Spec 主线:[[AI原生研发落地实践-Spec-Kit和BMAD跑了一遍SDD]] / [[Notion-spec-driven-AI-workflow]] / [[AI编程三剑客-SpecKit-OpenSpec-Superpowers深度对比]]
- Loop 主题:[[Loop-Engineering-验证才是瓶颈]] (本文讲 Skills 构建,那篇讲 Loop 验证)/ [[Addy-Osmani-Loop-Engineering]] / [[Loop-Engineering-详解-把反馈循环放进工程现场]]
- 评测主线:[[腾讯-AI-Agent-Skill-测评方案落地]] 测评是 Demo→生产必须跨过的门槛
- AI Coding 范式:[[AI-Coding的顿悟时刻]] / [[54万行代码的顿悟-Markdown才是新编程方式]] / [[Claude-Code负责人谈AI原生工程组织]]
备注与限制
- 作者官亭,淘天集团-行业运营技术团队,招聘前端/后端/QA(zezhou.jzz@taobao.com)
- 阶段 5 云端集成尚未规模化,具体上线日期/客户覆盖度未披露
- 评估报告 Skill”字段遗漏率 0%”是否在多项目稳定仍待验证
- kn-fetcher CLI 对接 Skill 体系时间表未明
- Code Wiki/KBase 试跑数据未披露具体召回率
- ADJUSTMENT_PLAN 闭环的 11 类高频问题具体清单未列
- Spec 编写”3-5 轮人工交互”在不同复杂度客户间的分布未披露
- kn-fetcher 6 个基础命令的具体用法与适用平台未给详情
- “脚本提取为主,AI 辅助校验”的具体脚本实现未开源