腾讯 TEG Agent Skill 测评方案 — 速读摘要

一句话总结

测评是 Agent 从 Demo 可用走向生产可靠必须跨过的门槛。 腾讯 TEG 网关测试团队给出”三类评分器 + 五大维度 + 5 步闭环”完整框架:TPerf 性能分析 Agent 已在生产验证,核心理念是”Agent/Skill 设计阶段就要把 Trace 输出作为标准能力纳入,而非事后补救”。

核心观点 6 条

  1. Agent 三大独有痛点:非确定性(同 prompt 多次结果不同)/ 黑盒化(模型升级/Prompt 微调导致行为漂移)/ 错误级联放大(单点错误引发下游连锁)
  2. 三类评分器 + 选择优先级:确定性评分器 > Rubric 评分器 > 人工评分器——”能用代码判断的绝不用模型,必要时用模型,人工用于校准”
  3. 五大评测维度:功能正确性 / 过程质量 / 效率成本 / 鲁棒性安全 / 体验对齐
  4. 三类 Agent 侧重不同:知识库问答类更依赖 Rubric 评分器(判断质量、检测幻觉)/ 功能工具类关注过程对比(工具调用序列是否与基线一致)/ Skill 类用例量最大
  5. 用例设计 5 步闭环:设计测评用例集 → 设计评分规则 → 建立用例基线 → 执行测评 → 维护用例集
  6. 多轮执行稳定性:N 次执行中只要 1 次不通过,就说明存在稳定性风险;不同 Agent 类型,不通过比例容忍阈值完全不同

知识节点 8 个

关键数字 / 事实

反直觉点 5 个

  1. 测评不是写完代码再做,而是 Agent/Skill 设计阶段就该把 Trace 输出作为标准能力——事后补救成本极高
  2. 过度触发比不触发更难发现——负向触发用例比正向触发更重要
  3. 能用代码判断的绝不用模型——Rubric 是补确定性评分的盲区,不是替代
  4. 不通过比例阈值因 Agent 类型而异——知识库问答容忍度高,功能工具容忍度低
  5. 过程评测比结果评测更通用——结果对但过程错=可解释性差=线上排障会难

关键金句 5 条

对 Seetong 团队可借鉴动作 5 个

  1. 建立”Seetong Agent 评测集” — 对每个 Skill(seetong-daily-briefing / seetong-tapd-version-review / seetong-batch-issue-rootcause-analysis / seetong-clarify / seetong-execute 等)都建”用例基线 + 评分规则 + 多轮稳定性评估”
  2. 把 Trace 输出作为 Skill 设计阶段标准能力 — 当前 Seetong skill 默认不输出结构化 trace,需要补;参考 Loonggg 2026-06 那套 worktree 模式
  3. 设”过度触发比不触发更难发现”作为新 Skill 设计的硬规则 — 每个 Skill 必须配负向触发用例(什么时候不应该触发)
  4. 用例设计 5 步闭环作为 Seetong 内部 Agent SOP — design → rubric → baseline → execute → maintenance
  5. TPerf 项目作为基准参考 — 腾讯 TEG 这套已在生产环境跑通,作为 Seetong Agent 评测体系的”先例”参考,不重复造轮子

关联图谱(只画三段)

上游(基于 / 来自):

下游(应用于 / 验证于):

同级(横向 / 并列):

备注