腾讯 TEG Agent Skill 测评方案 — 速读摘要
一句话总结
测评是 Agent 从 Demo 可用走向生产可靠必须跨过的门槛。 腾讯 TEG 网关测试团队给出”三类评分器 + 五大维度 + 5 步闭环”完整框架:TPerf 性能分析 Agent 已在生产验证,核心理念是”Agent/Skill 设计阶段就要把 Trace 输出作为标准能力纳入,而非事后补救”。
核心观点 6 条
- Agent 三大独有痛点:非确定性(同 prompt 多次结果不同)/ 黑盒化(模型升级/Prompt 微调导致行为漂移)/ 错误级联放大(单点错误引发下游连锁)
- 三类评分器 + 选择优先级:确定性评分器 > Rubric 评分器 > 人工评分器——”能用代码判断的绝不用模型,必要时用模型,人工用于校准”
- 五大评测维度:功能正确性 / 过程质量 / 效率成本 / 鲁棒性安全 / 体验对齐
- 三类 Agent 侧重不同:知识库问答类更依赖 Rubric 评分器(判断质量、检测幻觉)/ 功能工具类关注过程对比(工具调用序列是否与基线一致)/ Skill 类用例量最大
- 用例设计 5 步闭环:设计测评用例集 → 设计评分规则 → 建立用例基线 → 执行测评 → 维护用例集
- 多轮执行稳定性:N 次执行中只要 1 次不通过,就说明存在稳定性风险;不同 Agent 类型,不通过比例容忍阈值完全不同
知识节点 8 个
- 三类评分器:确定性(代码判断) / Rubric(模型按规则打分) / 人工(校准);优先级:确定性 > Rubric > 人工
- 五大评测维度:功能正确性 / 过程质量 / 效率成本 / 鲁棒性安全 / 体验对齐
- 用例基线 Baseline:单个用例执行 1 次后,经人工确认的预期过程和预期结果的快照
- 结构化 Trace 输出:每行独立解析、可按 type 过滤工具调用或思维链、可与基线逐步对比;过程评测的前提
- 三类 Agent 测评侧重:知识库问答类(更依赖 Rubric)/ 功能工具类(更关注过程对比)/ Skill 类(用例量最大,需覆盖所有核心分支)
- 负向触发用例:只测正例,Agent 可能学会”什么都触发”——过度触发比不触发更难发现
- 用例设计 5 步闭环:设计 → 评分规则 → 基线 → 执行 → 维护
- 稳定性评估:多轮执行(N 次)检测幻觉和不通过比例;Agent 类型决定容忍阈值
关键数字 / 事实
- 3 类评分器 + 5 大维度 的通用框架覆盖所有 Agent 类型
- 5 步闭环 是实施层面的标准路径
- 多轮执行:N 次执行中 1 次不通过即标记为存在稳定性风险
- 落地项目:TPerf 性能平台智能分析 Agent(腾讯 TEG 网关测试团队)
- 可复用产物:评分模板、评分方法论、自动化流水线工程实现
反直觉点 5 个
- 测评不是写完代码再做,而是 Agent/Skill 设计阶段就该把 Trace 输出作为标准能力——事后补救成本极高
- 过度触发比不触发更难发现——负向触发用例比正向触发更重要
- 能用代码判断的绝不用模型——Rubric 是补确定性评分的盲区,不是替代
- 不通过比例阈值因 Agent 类型而异——知识库问答容忍度高,功能工具容忍度低
- 过程评测比结果评测更通用——结果对但过程错=可解释性差=线上排障会难
关键金句 5 条
- “Agent 的自主性带来了三个传统软件没有的问题:非确定性、黑盒化、错误级联放大”
- “能用代码判断的绝不用模型,必要时用模型,人工用于校准”
- “只测正例,Agent 可能学会’什么都触发’——过度触发比不触发更难发现”
- “用例基线 = 单个用例执行 1 次后,经人工确认的预期过程和预期结果的快照”
- “建议:在 Agent/Skill 设计阶段就将结构化 Trace 输出作为标准能力纳入,而非事后补救”
对 Seetong 团队可借鉴动作 5 个
- 建立”Seetong Agent 评测集” — 对每个 Skill(seetong-daily-briefing / seetong-tapd-version-review / seetong-batch-issue-rootcause-analysis / seetong-clarify / seetong-execute 等)都建”用例基线 + 评分规则 + 多轮稳定性评估”
- 把 Trace 输出作为 Skill 设计阶段标准能力 — 当前 Seetong skill 默认不输出结构化 trace,需要补;参考 Loonggg 2026-06 那套 worktree 模式
- 设”过度触发比不触发更难发现”作为新 Skill 设计的硬规则 — 每个 Skill 必须配负向触发用例(什么时候不应该触发)
- 用例设计 5 步闭环作为 Seetong 内部 Agent SOP — design → rubric → baseline → execute → maintenance
- TPerf 项目作为基准参考 — 腾讯 TEG 这套已在生产环境跑通,作为 Seetong Agent 评测体系的”先例”参考,不重复造轮子
关联图谱(只画三段)
上游(基于 / 来自):
- [[Skill-Self-Evolution]] — Trace2Skill / EvoSkill / SkillOpt 都需要”评测指标”支撑,本套框架是上游基础
- [[陈进-读完Agent-Loop工程手册]] — Agent Loop 范式跃迁的工程落地配套
- [[阿里妹-端到端业务需求专家Agent-4层架构8步流程]] — 业务需求 Agent 设计与本评测体系互补
下游(应用于 / 验证于):
- [[用Agent评测思路管理AI-Coding-31万行代码AI重构实践]] — 同主线”用 Agent 评测做工程”
- [[如何构建一个更”好”的知识库:RAGAS 三维度评估 + 8 步构建流程 + 前沿架构选型]] — RAGAS 三维度与本文五大维度是同主线
- [[seetong-batch-issue-rootcause-analysis]] — Seetong 现成的批量 bug 根因分析场景,可直接套用本评测框架
- [[seetong-daily-briefing]] — Seetong 每日简报,需要建用例基线(网络 -102 / 自动登录失败 / 注册成功率)
同级(横向 / 并列):
- [[清华沈阳-自进化AI新物种]] — 自进化 AI 也需要评测指标支撑
- [[Multica-AI-Native-组织]] — Agent idle 率本身就是评测指标的一种
备注
- 本套框架的特殊价值:这是 2026-06 在 01-ai-agents 主题下第一个完整的”Agent 评测工程实践”落地参考——之前只有理论/方法论(Skill 自进化 / Agent Loop 等),本篇是”如何在生产环境跑通”的实证
- 可复用产物:评分模板、5 大维度 5 级严重性分级、3 类评分器优先级、5 步闭环 SOP、多轮稳定性评估的容忍阈值表
- 未在文中出现但 TEG 团队反复强调的反问句:”你的 Agent/Skill 现在还在’跑通一次就好’,还是已经有了基线 + 评分规则 + 多轮验证?”
- 本框架对 Seetong 团队的最大价值:不是技术方案,而是”没有测评会让团队陷入的被动局面”清单——为 Seetong Skill 自进化补上评测维度