面向 Skills 编程——淘宝企业购端到端研发提效实践

本文提出”面向 Skills 编程“范式——将领域知识、工作流、约束规则封装为可版本化的 Skills 单元,让 LLM 在确定性框架内生成代码,实现从”人写代码”到”人沉淀 Skills,AI 写代码”的研发范式升级。以企业购客户对接场景为实战验证,通过项目评估、技术方案、代码生产的研发 SOP 构建,实现商品域端到端交付周期缩短 65%,代码一次生成成功率达 90%。

核心理念:从”配置化编程”到”面向 Skills 编程”

传统范式的天花板

过去我们应对业务变化的经典策略是 DDD 分层 + 配置化:通过领域建模拆分业务能力,通过配置参数驱动行为差异。这套模式在以人为主的传统研发模式下行之有效,但面对高频定制化需求时,由于人力的稀缺,依然可能存在交付瓶颈:

当定制化需求高频出现时(如企业购每个客户接口都不同),配置化的参数空间爆炸,SPI 扩展点变成了”每次都要写的代码”,开发者本质上还是在手写适配逻辑——DDD 实现了架构解耦,但没有解决重复编码的问题。

新范式:面向 Skills 编程

面向 Skills 编程的核心思想是:将”人写代码”转变为”人写 Skills,LLM 基于 Skills 写代码”。 程序员向更高一层抽象——从”实现逻辑”上升为”定义 Skills”,基于 Skills 将个人经验转化为可复用的 AI 能力单元。

类比理解:如果说传统编程中”接口/抽象类”定义了代码的契约,那么 Skills 就是定义了 AI 行为的契约——它告诉 LLM”做什么、怎么做、不能做什么”,就像接口定义告诉实现类”必须实现什么方法”,让大模型从”知道分子”成为”行动专家”。

维度评估:你的场景是否适合引入 Skills

落地路径:四步构建你的 Skill 体系

不论你在什么业务域,都可以按以下四步构建自己的 Skill 体系:

识别重复模式 → 封装不变量为 Skills → 将变化的部分作为输入 → LLM 在约束下执行。

实战验证:企业购对接的 AI 研发演进路径

业务背景

面向企业客户的采购需求,淘宝企业购提供一整套包含淘宝全平台丰富供给以及私有化企业采购服务产品链路的解决方案。在标准模式(SKA 模式)下,淘宝企业购已提供完善的基于淘宝开放平台的 TOP 标准接口,支持外部客户自主对接,覆盖标准化的商品、交易和结算服务。

然而在实际业务拓展中,大量大中型客户自身已经具备成熟的系统和接口规范:

自研内部商城:如某大型政府机构,内部自建了采购商城系统,拥有自己的接口协议
外部 SAAS 商城:如使用第三方 SAAS 采购平台的客户,遵循 SAAS 平台的接口规范

这些客户改造自身系统来适配淘宝企业购标准接口成本较高,因此需要企业购反向适配其系统接口。出于业务发展的需要,企业购需要主动适配客户系统的接口规范,由此衍生出客户定制对接这一高频研发场景。

客户对接的核心工作是:基于客户提供的对接文档,理解其接口规范,开发适配层代码,实现企业购标准服务与客户系统的互通。对接工作涉及三大业务域——商品(商品信息同步、类目映射)、交易(订单创建、物流同步、逆向)、结算(对账、结算单、发票管理)。由于每个客户的接口规范各不相同,适配代码几乎无法跨项目复用,每次对接都需要从文档评估到代码开发全流程重新执行。

核心痛点

这一业务模式具有四大典型特征:对外对接高频、需求碎片化、技术方案重复度高、交付周期敏感。在传统研发模式下,面临以下瓶颈:

核心问题:当前以人工为中心、AI 辅助的研发模式无法满足业务”快交付、低成本、高灵活”的诉求。

成果速览

经过近半年的系统性探索与实践(2025.8 - 2026.2),团队在研发范式、研发效率、技术沉淀三个维度取得了阶段性成果:

研发范式升级:从”依赖个人经验的对话式编程”迈向”基于 Skills 的工程化 AI 协作”,实现端对端编程实践探索,以人为主导,逐步转向人通过 Skills 传递经验给 AI,指挥 AI 编程。

研发效率提升:商品域端到端交付周期从 23.5 人日缩短至 8 人日,整体提效 65%,代码一次生成成功率达到 90%。

技术沉淀:构建了覆盖全链路的 Skills 体系和端到端生码平台,将个人经验转化为可复用的组织能力资产。

演进路径:AI 研发提效的五阶段

过去半年,团队在巨大的交付压力下,围绕架构解耦、AI 编程、AI 工具应用三大方向进行了系统性探索。演进路径与 AI 技术发展趋势高度一致,每一阶段都是对前一阶段”天花板”的突破:

阶段 1:Vibe Coding——以对话驱动需求具象化

**2025 年 8 月

落地项目:某大型 ISV**

做法:基于弹外架构独立部署的安全性优势(可使用所有开源代码、最新大模型和 AI 工具),团队开始尝试以自然语言对话驱动代码生成。开发者通过与 AI 对话描述业务需求,AI 直接生成适配代码。

效果:迈出了 AI 编程的第一步,验证了对话式编码在外部接口适配场景中的可行性。基于某 ISV 项目完成了整体架构落地,实现企业购标准服务与客户适配逻辑解耦。

瓶颈:

产出质量不稳定:完全依赖个人 Prompt 技巧,同一需求不同人写出的 Prompt 质量差异巨大
难以复用:知识散落在临时对话中,新人无法继承前人的经验
强依赖个人能力:AI 输出质量与开发者的提示词工程能力强相关

阶段 2:Prompt 模板——标准化”业务→技术”的语义翻译器

**2025 年 9 月

落地项目:某大型企业**

做法:采用流程模板化 + 子任务 Prompt 模板双轨策略,取得阶段性成效:

流程模板化:将共性环节(如”商品同步”)抽象为可复用的对接模板——抽象商品同步流程,分离变与不变的逻辑,对接新客户仅需在已有模板基础上开发变化部分。其核心目的是让 AI 做确定性的具体事情,避免发散——通过预定义流程骨架,将 AI 的工作从”自由设计一个同步流程”收敛为”在已有模板上填充差异化逻辑”。
子任务 Prompt 模板:将开发过程拆分为多个子任务(脚手架搭建、接口对象生成、对象映射、接口串联),为每个子任务预置结构化 Prompt 模板,统一输入格式、约束输出维度、嵌入业务规则。

效果:

AI 生成代码采纳率 70%
4 类 Prompt 模板形成可复用资产,新人可快速上手

瓶颈:

问题一:AI 发散不可控,无法提前预览设计思路。Prompt 模板只约束了输入和输出格式,但无法约束 AI 中间的”思考过程”,发现问题时代码已经生成完毕,只能推翻返工,反而拉长了迭代周期。
问题二:单点提效,无法承载 SOP。Prompt 模板无法支撑端到端的标准化操作流程(SOP),核心原因:执行不可控(步骤跳过/顺序错乱/工具误调用);SOP 与推理任务的本质冲突(需要将”自由发挥”转化为”受控选择”);缺乏能力基座(流程节点标准化/工具参数模板化/决策边界显性化)。

阶段 3:SDD(规范驱动开发)——构建研发流水线的”数据契约”

**2025 年 12 月

落地项目:SAAS 项目**

做法:引入 SDD 方法论,用结构化规格文档驱动 AI 生成。在 SAAS 项目中使用 OpenSpec 工具验证了 Spec 编程的可行性——从对话式编程到用规范约束 AI,通过工程规范、开源知识库、业务约束三层引导,让 AI 输出能落地的代码。

效果:AI 生成代码可用率从 40% 提升至 80%。

瓶颈:SDD 方法论验证了 Spec 驱动的可行性,但在实际落地过程中暴露出规模化推广的瓶颈:

流程执行成本高:SDD 要求严格遵循”提案(Proposal)→ 实施(Apply)→ 归档(Archive)”三个环节顺序执行,且过程中涉及多轮需求澄清和方案迭代,单个 Spec 从编写到定稿往往需要 3-5 轮人工交互
强依赖个人经验,无法规模化:Spec 的编写质量高度依赖编写者对领域知识的掌握程度——如 SPU/SKU 模型理解、推拉模式选择、字段映射方向等关键决策,仍然散落在个人脑中
领域知识未固化:SPU/SKU 混淆、ID 字段混淆等问题跨项目反复出现,说明领域经验没有沉淀为可复用的约束规则

阶段 4:Skill 沉淀——将经验固化为可复用的 AI 能力单元

**2026 年 1-2 月

落地项目:某大型 ISV**

做法:企业购客户对接场景天然适合 Skill 体系——每一次客户对接都是一个全新的项目,但执行的流程高度重复(文档评估→技术方案→代码开发),变化的只是客户接口规范、字段映射关系和业务流程编排。这与 Skills 倡导的可复用技能包理念高度契合:将不变的流程、规则、领域知识封装为 Skill,每次对接只需输入客户文档,Skill 即可驱动 AI 按标准化流程产出结果。

基于这一判断,团队采用 Anthropic 的 Agent Skills 标准(SKILL.md + references/ + scripts/)将领域经验封装为 Skill,实现”经验即代码”——工作流写在 SKILL.md 里,领域知识放 references 目录,通过版本控制管理,换人、换模型、换平台都能复用。

最终构建了一条从客户接口文档评估到代码生产的 AI 全链路流水线,覆盖”文档评估 → 技术方案 → 编码”的完整链路,用 xx 项目(15 个接口)跑通了商品域整个流程。

瓶颈:Skill 体系在技术研发侧取得了显著成效,但其使用门槛决定了受众仍局限于技术同学:

面向技术同学,产品和业务上手门槛高:Skill 的安装、配置、调用均依赖 Cursor 等本地 IDE 环境,产品经理和业务运营无法直接使用,仍需研发作为中间人代为执行
依赖本地 IDE 环境,无法规模化推广:Skill 运行在开发者个人的本地 IDE 环境中,换人、换机器需要重新配置环境
能力无法产品化输出:技术侧已验证的全链路能力缺乏产品化载体,无法作为标准化工具赋能给产品和业务团队自主对接

阶段 5:云端集成——打造端到端 AI 研发产品

**2026 年 2 月

探索中**

做法:技术先行,利用 OneDay 搭建前端交互界面,结合 Aone 沙箱提供的代码编译与执行环境,自行搭建了端到端的生码平台原型。核心思路是将已验证的 Skill 能力从本地 IDE 迁移到云端,让非技术人员通过 Web 界面即可触发全链路流水线——上传客户对接文档后,平台自动完成文档解析、评估报告生成、技术方案输出、适配代码生产的完整流程。

当前进展:

基于 OneDay + Aone 沙箱的生码平台已搭建完成,完整链路已跑通
商品域全流程(文档评估→技术方案→代码生成)已在平台上端到端验证通过
验证了 Skill 从本地 IDE 到云端平台迁移的可行性,核心能力可复用

方法论沉淀:我们是怎么做到的

架构先行:分层架构设计

为什么架构优化是 AI 编程的前提? 代码分层越清晰,AI 生成质量越高。架构优化不是为了优化而优化,而是为了让 AI 能够更好地理解和生成代码。分层架构设计是 AI 编程的基础设施,它通过清晰的结构和明确的边界,让 AI 能够像人类开发者一样理解代码的组织逻辑,从而生成更高质量、更符合规范的代码。

通过代码分层,将系统拆分为原子能力层、模板层、适配层三层架构。这种分层不仅是传统工程意义上的解耦,更是为 AI 编程量身设计的——通过流程模板化限定 AI 行为边界,避免发散,让 AI 聚焦于专一任务(仅实现适配层逻辑)。

原子能力层和模板层是稳定不变的,AI 生成的代码仅聚焦于适配层——这将 AI 的工作范围从”理解整个系统”收敛为”在固定框架内填充适配逻辑”,大幅降低了 AI 生成的复杂度和出错概率。

实际效果:

适配层代码量减少 60%:客户差异化开发聚焦协议转换等核心逻辑
多客户并行开发零冲突:支持多项目并行开发与独立部署
原子服务复用:覆盖 90%+ 对接场景,AI 无需重复生成基础能力代码

垂直领域 Skill 的构建与调优

为什么做垂直领域 Skills? 回到 Skills 的本质,构建领域专家,而不是通用方案;围绕企业购做垂直域深耕,真正实现业务提效。

我们所构建的 Skills 专注于企业购对接这一专业领域的具体需求,与企业购业务强相关——所需的领域知识是 SPU/SKU 模型、推拉模式、字段映射规则等专业知识,而非通用能力(如 PDF 解析、代码格式化等通用 Skill)。

Skill 构建思路:

Spec 驱动原则:通过提升项目评估、技术方案等前置链路准确性,实现生码准确率提升——前序环节的质量决定了后续环节的天花板
工程师思维:先完成链路搭建,再基于实际项目拆解到不同节点进行问题分析,通过工程+AI 结合,以解决问题为第一目标
借鉴和学习:参考 Anthropic 官方最佳实践(三层架构)、优秀开源项目经验(everything-claude-code、superpowers)等进行实践验证

实际案例:成功率从早期不足 50% 提升至当前 90%,核心在于解决了接口提取幻觉、复杂逻辑输出不稳定、长上下文导致信息丢失三大类问题。调优过程按链路节点逐段攻破:

评估报告阶段(评估报告是整条链路的输入源头,类似于 PRD 的理解):

问题 1:接口提取——AI 幻觉导致遗漏。典型案例:客户项目 A4.5 节标题为”获取所有图片信息”,模型未识别为接口定义,直接跳过——提取漏一个接口,评估就少评一个,方案就少写一个,代码就少生成一个。
解决方案:脚本提取为主,AI 辅助校验——核心思路是把”提取”这个对准确性要求极高的环节从模型能力中剥离出来,改用确定性的脚本解析,AI 只负责前后两端(理解格式 + 检查补漏)
问题 2:领域知识缺失——映射关系混乱。AI 缺乏商品域业务知识,导致字段映射方向搞反、ID 混淆、参数丢失等问题。
解决方案:领域知识内嵌——把人脑中的业务经验转化为 Skill 的 references 和约束规则,让 AI 从”通用地写代码”变成”带着领域知识写方案”

技术方案阶段(评估报告准确后,技术方案阶段暴露出两个新问题:推拉模式混杂导致 API 不对齐和长文档输出崩塌):

问题 1:推拉模式混杂——生成代码与实际系统 API 不对齐。早期推模式和拉模式混在一个 Skill 里生成方案,导致上下文膨胀、AI 凭空编造接口签名和 DTO 结构。
解决方案:领域架构拆分,按调用方向拆分链路 + 系统 API 抽象注入
问题 2:长文档输出崩塌。某 ISV 15 个接口,AI 仅完整实现前 4 个,后续用”类似”带过。
解决方案:将方案生成 Skill 拆为 4 个子 Skill,每个接口在独立上下文中处理——本质是用架构手段解决模型能力边界问题——不指望模型在超长上下文中保持一致性,而是把问题拆到模型能稳定处理的粒度

问题闭环:同类问题跨项目、跨模型反复出现(如 XX 系统修了 SPU/SKU 混淆,换 B 系统又犯),通过 ADJUSTMENT_PLAN 机制(发现→定位 Skill→补约束→验证→交叉验证)将 11 类高频问题全部沉淀为 Skill 约束,不再复现。

代码生产阶段(评估报告和技术方案准确后,代码生产阶段的核心瓶颈是代码规范和编译成功率):

问题:AI 生成的代码不可用。典型案例:项目骨架未初始化(pom.xml 占位符未替换、AKSK 未配置);AI 用 ItemClient 而不是 ItemClientWrapper;生成顺序不对导致编译报错
解决方案:
1. 工程初始化 Skill 前置:将项目骨架搭建(占位符替换、AKSK 生成、Maven 编译验证)拆为独立的 ego-project-initialization Skill,确保代码生成在一个可编译的工程上进行
2. 代码模板驱动生成:将 ItemClientWrapper 使用方式、工具类 API、注解规范、Request/Response/Converter/SPI 四类代码模板注入 Skill 的 references/code-templates/,AI 按模板填充而非凭空编写
3. 按依赖顺序生成:拉模式按”通用基类→请求类→响应类→转换器→SPI 实现”的依赖顺序逐接口生成,避免前置类不存在导致编译失败

经验总结——Skills 构建原则

基础认知:

Skills 是 AI 研发的最小可复用单元:类比软件工程中”函数/类”封装逻辑,Skill 封装的是工作流 + 领域知识 + 约束规则——做什么(SKILL.md)、用什么知识做(references)、不能怎么做(约束与禁止项),新客户对接不是从零开始,而是换一份输入文档跑同一条流水线
质量瓶颈不在模型,在知识工程:50% → 90% 的提升全部来自知识注入和约束迭代,不是换更强的模型——领域知识(映射规则、API 签名、模式判定)不会从训练数据中涌现,必须显式注入
确定性工程 + 不确定性 AI = 可控的研发流水线:高精度环节用脚本(接口提取),模型不稳定的用架构拆分绕过(推拉分离、子 Skill),反复出错的沉淀为约束——三者配合把”不可控的对话”变成”可复现的流水线”

质量控制:通过「事前约束→运行时约束→事后审查→人工卡点」四层防线,贯穿评估→方案→代码全链路。

实际效果(xx 项目):审查 Skill 对评估报告审查结果为接口覆盖 15/15、字段遗漏率 0%、映射方向正确。早期(xx 项目)的 11 类高频问题已全部通过约束沉淀解决。

知识库建设

为什么需要知识库? 建设专有知识库,能让 AI 懂得业务现有的技术背景、领域知识、架构、流程、代码结构等知识。在 Skill 体系中,领域知识通过 references 目录内嵌到每个 Skill 中,但随着 Skill 数量增长,出现了知识分散、更新不同步、跨 Skill 复用困难等问题,需要构建统一的知识库体系来支撑。

知识库全景:知识库采用三种存储载体协同的架构,覆盖从代码到文档的全域知识管理。

知识的生产与使用:

生产知识:多模态支持(钉钉文档/代码/PDF)+ 多数据源(Git 知识仓库/Code Wiki/KBase)+ 多种生成方式(人工维护 Rules + 自动生成&增量更新)
使用知识:AI 研发流程自动加载知识,通用 Skills 隐藏底层检索细节;Git 知识仓库(自建索引,支持渐进式拉取);KBase(RAG 召回)

标准化知识管理:参考 Anthropic 官方 Skill 的渐进式加载策略(SKILL.md 触发时加载 + REFERENCE.md 按需加载),构建了三级索引结构(GUIDE.md → rules/index.md → 具体规则文件),实现知识的按需发现和加载。

知识分发工具:构建了 CLI 工具 kn-fetcher,支持知识的拉取、搜索和批量分发(kn-fetcher pull --platform aone-copilot --rules java-coding-standards)。

当前进展:

Code Wiki 已完成试跑,生成的数据模型/开发指南/核心模块/API 参考符合预期,可通过 MCP 召回知识
KBase 已完成试跑,自然语言提问可召回代码片段+原文档链接
三级索引结构和元数据规范已定义完成
kn-fetcher CLI 工具 6 个基础命令(pull / list / search 等)已完成,待对接 Skill 体系

规划与展望:迈向”端到端智能交付”的研发未来

当前评估→方案→编码链路已验证,但沙箱测试(TDD)、SubAgent 并行化等能力尚未完全完成,仍有较大的提升空间,下一阶段将继续推进端对端研发闭环,进一步实现交付周期缩短。

结语

从 Vibe Coding 到 Skills coding,从 50% 的代码生成成功率到 90%,从 23.5 人日的交付周期到 8 人日——这不仅是工具链的升级,更是研发范式的重构。

传统思维中,文档是代码的注释;而在 SDD 思维中,Spec 是源代码——开发者维护规范,代码由 AI 生成。开发者的角色从编码执行者转变为审核者、架构师。

在 Skills 编程体系里,Skills 是人类最佳实践的能力封装。开发者的角色从 AI 辅助研发,变成辅导 AI 进行研发,人类彻底成为指挥 AI 进行工作的人,人类研发将更多精力投入到架构设计、代码审核、规范设计等更高价值的创造性工作中。

展望未来,当每个领域的最佳实践都能被沉淀为 Skills 时,意味着个人经验的产品化、标准化和资产化,AI 会真正从”知道分子”成为”行动专家”;AI 不是替代者,而是为我们工作的数字专家,帮助我们从重复劳动中解放,聚焦更高价值的创造。

团队介绍

本文作者官亭,来自淘天集团-行业运营技术团队。在企业购业务中,面向企业客户的采购需求,团队正深入构建 AI Agent 产品,围绕 AI 运营、AI 研发、AI 产品三大方向持续突破,以 AI 驱动企业采购在项目交付、产品体验、经营效率上的全面升级,助力企业采购实现规模化与高质量增长。团队当前急需前端、后端、QA 等方向的伙伴,如果你愿意一起来探索,欢迎联系 zezhou.jzz@taobao.com。

备注

本文为”大淘宝技术”公众号推送,作者官亭(淘天集团-行业运营技术团队)
与 [[阿里云开发者-淘宝主播Agent的Harness工程实战]] 同源(都是阿里/淘系 AI Agent 工程实战,但场景不同:主播 Agent = 实时交互高风险/企业购 = 高频定制化交付)
与 [[Skill-Self-Evolution]] / [[Agent Skills 系统性综述]] / [[谷歌开源 agent-skills]] / [[Addy-Osmani-agent-skills-设计哲学]] 同主线 Skill 体系
与 [[AI原生研发落地实践-Spec-Kit和BMAD跑了一遍SDD]] / [[Notion-spec-driven-AI-workflow]] / [[AI编程三剑客-SpecKit-OpenSpec-Superpowers深度对比]] 同主线 SDD/Spec
“质量瓶颈不在模型,在知识工程”(50% → 90% 全靠知识注入) 与 [[腾讯-AI-Agent-Skill-测评方案落地]] “测评是 Agent 从 Demo 可用走向生产可靠必须跨过的门槛”同主线
五阶段演进(Vibe Coding → Prompt 模板 → SDD → Skill 沉淀 → 云端集成) 与 [[Loop-Engineering-验证才是瓶颈]] 互补:本文讲 Skills 单元构建,那篇讲 Loop 验证闸门
阿里妹同源:[[阿里妹-端到端业务需求专家Agent-4层架构8步流程]] 业务需求 Agent 4 层×8 步视角
文章清洗后字节数 10775,信息密度高,实战案例数据齐全
待补证:阶段 5 云端集成尚未规模化,具体上线日期/客户覆盖度未披露;评估报告 Skill 实际”字段遗漏率 0%”是否在多项目稳定仍待验证;kn-fetcher CLI 对接 Skill 体系时间表未明