淘宝主播 Agent 的 Harness 工程实战(原文摘要)

一句话总结

把 Harness 从”个人助手形态”推到”淘宝直播”这个操作不可撤回 + 注意力稀缺 + 多话题高频交织 + 长程可中断的极端压力测试场,落地为”业务方写 Skill / 框架层兜底脏活“的工程化骨架。

5 条核心观点

Harness 六元组 = (E, T, C, S, L, V):Execution Loop / Tool Registry / Context Manager / State Store / Lifecycle Hooks / Evaluation Interface。把零散 Prompt 技巧升级成有明确分工的系统架构,任何 Agent 项目都可拿这六个维度自查缺哪一块。
业务/框架分层 + 五层纵深防御:业务方以 Skill 形式声明能力与风险,框架层兜住执行循环/上下文/安全/状态/观测。”纵深防御”不是单点:Prompt 边界 → Schema 强约束 → Approval 审批分层 → 工具执行验证 → 执行审计记录。
逻辑统一、物理分治:逻辑上向 Agent 暴露统一”工作区”抽象;物理上三类资产分开存——MySQL 存会话(强一致+点查)/ Hologres 存记忆(向量+全文+标量三路召回)/ GitLab 存 Skill(版本管理+Code Review+灰度发布)。
Reducer 上下文 + 结构化错误码 + 生命周期 Hook:LLM 只决策(产生 Action),Reducer 维护状态(纯函数),每轮 system-hint 注入干净快照;错误码分 3xxx/4xxx/5xxx/9xxx 决定自动重试还是 Hook 通知;Hook 在 PreReasoning / PreToolCall / PostToolCall / PostReasoning / SessionEnd 5 个关键时机拦截。
记忆对账 + 信任度自进化:L1 会话记忆(主播声明)/ L2 事实记忆(实时数据)/ L3 行为记忆(离线聚合)。”主播说的”和”主播做的”矛盾时不粗暴覆盖 L1,而是累积证据 ≥ 3 次后 Agent 主动和主播确认;trust_score 决定输出形态(≥0.7 给 recommend,0.4-0.7 给 evidence+弱参考,<0.4 只给 evidence)。

关键参数/数字

项	数字/范围	用途
Harness 六元组	(E, T, C, S, L, V)	系统架构形式化
沙箱资源配额	CPU ≤ 50%,进程 ≤ 64	防止资源耗尽攻击
沙箱 stdout/stderr 上限	64KB	防止海量输出污染上下文
工具 timeout	Agent 只能缩小不能放大	防止 Agent 长期占死沙箱
结构化错误码 5xxx 重试	最多 3 次,指数退避	系统异常处理
PlanEngine vs ReAct 成功率	0.847 vs 0.737	DAG 规划价值
PlanEngine vs ReAct 子任务覆盖率	0.976 vs 0.883	DAG 全局规划价值
PlanEngine vs ReAct 工具执行冗余率	0.587 vs 0.727	DAG 减少重复工具调用
PlanEngine vs ReAct 迭代轮次	5.440 vs 8.020	DAG 提效
Approval 4 档	auto / soft-gate / hard-gate / block	风险分层审批
trust_score 增量表	+0.05 / -0.10 / +0.03 / -0.05	非对称信任度更新
矛盾累积阈值	≥ 3 次	触发 Agent 主动确认
离线评测	极端改价/违规诱导/模糊指令对抗样本	验证五层防护

核心金句

“模型会一代代变强,但包裹模型的这层 Harness 工程,才是把’能用的 Demo’变成’敢上线的产品’的真正壁垒。”(全文收尾)
“模型再强,没有河道也会泛滥成灾;河道修好了,哪怕水流有波动,整体也是可控的。”(ATA”水流理论”)
“主播’说的’和’做的’不一定一致。”(记忆对账的朴素起点)
“矛盾时不粗暴覆盖,而是累积证据、达到阈值后由 Agent 主动和主播确认。”(记忆工程取舍)
“业务方专注写 Skill,框架层兜住所有安全、状态、上下文与可观测的脏活。”(分层架构核心思想)

关联图谱

上游(基于 / 来自)

Harness Engineering 概念走红:OpenClaw、Claude Code、Hermes 等智能体产品带火
ATA “水流理论”:人控制方向+设定边界,AI 在边界内推进
前端 Reducer 状态管理思想:LLM = Action,Reducer = State

下游(应用于 / 验证于)

淘宝主播 Agent 生产环境:每日数千场直播,直接对真实金钱损失
Hologres 向量+全文+标量三路召回:记忆检索落地
Langfuse trace 可视化:评测体系落地
qwen3.7-max 基模 + 小模型 SFT/RL:planner 二次训练

同级(横向 / 并列)

既有 Harness 主线:[[harness-engineering]] 概念入门 / [[Harness工程AgentLoop]] Loop 视角 / [[HarnessEngineering企业级实战]] 阿里 25%→90% 视角 / [[0xCodez-Agent-Harness-14-Steps]] 14 步路径视角
阿里妹同源:[[阿里妹-端到端业务需求专家Agent-4层架构8步流程]] 业务需求 Agent 视角
记忆主线:[[记忆是-agent-基建]] / [[llm-agent-unified-memory-framework]] / [[ai-personal-knowledge-base-problems]]
Loop 主题:[[Addy-Osmani-Loop-Engineering]] / [[Loop-Engineering-详解-把反馈循环放进工程现场]] / [[APPSO-Codex-Claude-Code-Loop-Engineering]]
Agent 安全:[[陈进-读完Agent-Loop工程手册-我有8个还没想明白的问题]] 治理薄壳
Agent 评测:[[腾讯-AI-Agent-Skill-测评方案落地]] 评测工程实践
Agent 架构:[[从零设计生产级-Multi-Agent-Harness]] / [[OpenClaw-vs-Hermes-多-Agent-架构设计]]

备注与限制

文章未注明确切作者署名(推测为阿里/淘宝直播技术团队)
微信 HTML 抽取时第 2.6 节”异常处理”表的”响应超时”行被截断(原文应有”系统检测”等列),已用空行标注
PlanEngine vs ReAct 的具体评测数据集未披露(基模 qwen3.7-max, 平均 7 步 query)
文章未给出 4 个 trust 区间的具体推荐话术模板
“矛盾累积 ≥ 3 次”是经验阈值,未给实验数据
五层防护的具体”层间冗余度”未量化(每层漏掉的占比)
主播 Agent 是否在淘宝主播场景 A/B 验证未披露具体数字