摘要
6 月 18 日,独立 AI 评测机构 Artificial Analysis 发布了 AA-Briefcase——一个全新的、专门面向智能体(Agent)知识工作能力的评测基准。与 MMLU、GSM8K 等传统基准不同,AA-Briefcase 不考察模型"知道什么",而是考察模型"能完成什么":在横跨数周、包含数千份碎片化文档的复杂项目中,模型能否像一位真正的知识工作者那样规划、检索、推理并交付可验证的成果。
结果耐人寻味。Claude Fable 5 以 1587 Elo 的总分遥遥领先,但即便这位冠军,在严格的全或无评分标准下,也仅能完美完成 3% 的任务。更引人注目的是,智谱(Z.ai)的开源模型 GLM-5.2 以 1266 Elo 超越 OpenAI 的 GPT-5.5(xhigh),位列非 Anthropic 模型之首,且成本仅为 Claude Opus 4.8 的四分之一不到。
一、AA-Briefcase 测什么:从"答题"到"干活"
传统 LLM 评测的核心范式是"提问—回答":给模型一道选择题、一道数学题或一段代码补全,看它能否给出正确答案。这种范式催生了大量基准饱和问题——前沿模型在 MMLU、GSM8K 甚至 HumanEval 上的得分已经逼近天花板,进一步区分模型能力的边际价值急剧下降。
AA-Briefcase 彻底改变了这一范式。它由四个多周知识工作项目组成,涵盖数据科学、产品管理、银行运营和重工业战略四个场景,共计 91 个任务。每个场景由来自 Google、McKinsey 和 BCG 等行业专家耗时数月开发,模拟真实商业环境中的复杂工作流。
模型需要处理的上下文极其庞大且碎片化:25,000 多条 Slack 消息、3,500 多封电子邮件、会议纪要、大型数据导出文件、公司文档——这些材料中充斥着现实世界特有的矛盾、歧义和噪音。任务不是孤立的,而是逐周递进,共享机构上下文,要求模型产出财务报表、董事会演示文稿和设计稿等真实交付物。
评测采用复合评分体系:二元 rubric 检查(验证客观正确性)、分析质量 Elo(成对比较)和呈现质量 Elo(成对比较),三者综合为 AA-Briefcase Elo。这种设计同时捕捉了"做对了没有"和"做得好不好"两个维度。
二、为什么"未被饱和"如此重要
在 AI 评测领域,基准饱和是一个公认的顽疾。当一个基准被公开足够久,实验室可以通过针对性训练、数据泄露或 prompt 工程来"刷榜"——模型的 benchmark 分数飙升,但实际能力并未同步提升。MMLU 在短短两年内从"具有挑战性"变成了"几乎所有前沿模型都接近满分";GSM8K 和 HumanEval 同样经历了类似的饱和曲线。
AA-Briefcase 的发布时机使其天然具有抗饱和属性:
- 完全私有:四个评测场景均为私有的 hold-out 测试集,未公开泄露
- 刚发布:没有任何实验室有机会针对该基准进行定向优化
- 任务导向而非知识导向:成功完成任务需要综合运用规划、检索、推理、工具使用和格式呈现,而非单一维度的知识召回
宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 在 X 上评价道:"我曾对 AA 之前的智能体评测持批评态度,但这个基准看起来确实不错且令人印象深刻,它是针对真实世界知识工作的、不饱和的、带有私有 hold-out 测试的评测。"这一评价点出了 AA-Briefcase 最核心的价值:它提供的排名信号,比那些已被刷爆的基准更具信息量。
三、关键结果:GLM-5.2 超越 GPT-5.5
AA-Briefcase 的排行榜讲述了一个层次分明的故事。
第一梯队:Claude Fable 5 断层领先。 Anthropic 的 Mythos 级模型以 1587 Elo 高居榜首,领先第二名 Claude Opus 4.8(1356 Elo)超过 230 分。Fable 5 在分析质量、呈现质量和 rubric 通过率三个维度上均表现最优,且在整个评测中未使用 Opus 4.8 回退。
第二梯队:开源模型崛起。 最令人瞩目的结果是 GLM-5.2(max)以 1266 Elo 位列第三,超越了 OpenAI 的 GPT-5.5(xhigh,排名第四)。GLM-5.2 是智谱(Z.ai)发布的 753B 参数开源模型,采用 MIT 许可证,支持 100 万 token 上下文窗口。在 AA-Briefcase 上,它仅落后 Claude Opus 4.8 约 90 Elo 分,但每任务成本仅为 $2.40,不到 Opus 4.8($10.40)的 25%。
第三梯队:性价比之争。 DeepSeek V4 Pro(max)同样表现不俗,与 GLM-5.2 一同被 Artificial Analysis 评为"最强性价比选择"。DeepSeek V4 Flash(max)更是将每任务成本压至 $0.04——与 Claude Fable 5 的 $31+ 相比,成本差距超过 800 倍。
AA-Briefcase 关键排名与成本:
| 模型 | AA-Briefcase Elo | 每任务成本 |
|---|---|---|
| Claude Fable 5 | 1587 | $31.00+ |
| Claude Opus 4.8 (max) | 1356 | $10.40 |
| GLM-5.2 (max) | 1266 | $2.40 |
| GPT-5.5 (xhigh) | 低于 GLM-5.2 | $3.68 |
| DeepSeek V4 Flash (max) | — | $0.04 |
四、真实世界的复杂性仍是巨大挑战
尽管排行榜上的竞争激烈,AA-Briefcase 也揭示了一个残酷的现实:即使是最强模型,距离真正可靠地完成复杂知识工作仍有巨大差距。
在所有 91 个任务中,有 31 个任务没有任何模型能达到 50% 以上的 rubric 通过率。Claude Fable 5 虽然整体领先,但在严格的全或无评分下,仅能完美完成 3% 的任务。
错误模式随模型能力呈现出有趣的分层现象:
- 弱模型:在基础执行层面就崩溃——遗漏关键文件、交付无法使用的成果、甚至完全无法产出
- 强模型:失败更加隐蔽——它们能满足表面需求,但会遗漏那些需要跨多个来源拼凑信息才能发现的细节
Artificial Analysis 还发现,任务难度与所需输入文件数量高度相关。对于每个 rubric 检查点,团队识别了通过所需的最小文件集合。当所需文件数超过 5 个时,即便是高表现模型(平均 rubric 通过率 ≥30%),其通过率也从约 55% 下降到约 40%。
五、评测方法论的演进:从静态到动态、从单步到多步
AA-Briefcase 的发布标志着 AI 评测方法论的一次重要转向。
传统评测可以概括为"模型有多聪明"——关注知识储备、推理深度和数学能力。而 AA-Briefcase 代表的新范式追问的是"模型能完成多复杂的真实任务"——关注规划、执行、工具使用、信息检索和多步协调。
这一转变与行业趋势高度吻合。2025–2026 年,AI 产业的核心叙事已从"更好的聊天机器人"转向"能自主工作的 AI 智能体"。Anthropic 的 Claude Code、OpenAI 的 Codex CLI、Devin 等 AI 编程智能体的崛起,以及企业内部对 AI 自动化知识工作流程的旺盛需求,都在推动评测标准的升级。
AA-Briefcase 的几个设计特点尤其值得关注:
- 长周期:多周项目意味着模型需要考虑跨时间的一致性和上下文延续
- 碎片化信息:与干净的结构化数据不同,Slack、邮件中混杂着噪音和矛盾
- 复合评分:不只看结果对不对,还看分析是否深入、呈现是否专业
- 专家构建:场景由真正做过这些工作的人设计,而非由 AI 研究者凭空想象
六、对产业的启示:智能体能力正在成为核心指标
AA-Briefcase 的结果对产业有三个关键启示。
第一,智能体能力正在取代传统知识/推理分数,成为模型选择的核心指标。 企业在选择模型时,关心的是"这个模型能不能独立完成一个分析师三天的工作",而不是"这个模型在 MMLU 上多了 2 个百分点"。AA-Briefcase 直接回应了这一需求。
第二,开源模型的智能体能力正在逼近闭源前沿。 GLM-5.2 在 AA-Briefcase 上超越 GPT-5.5,DeepSeek V4 Pro 同样表现强劲。当开源模型在真实任务上能够匹敌甚至超越最昂贵的闭源模型,且成本仅为后者的零头时,企业采购决策的天平将大幅倾斜。Jeremy Howard 在 X 上评价 GLM-5.2 时称其"至少和 Opus 4.8、GPT-5.5 一样好",并指出唯一的短板是缺乏视觉输入支持。
第三,评测本身正在成为产业基础设施。 Artificial Analysis 通过 AA-Briefcase、GDPval-AA、APEX-Agents-AA 等一系列评测构建了一个从知识到编码到智能体的完整评测矩阵。随着 AI 模型能力的快速演进,独立、透明、抗饱和的评测体系将成为行业不可或缺的"裁判"。
结语
AA-Briefcase 的出现,恰逢 AI 从"能说会道"向"能干会做"转型的关键节点。它不仅是一个新的排行榜,更是一面镜子——照出了当前模型的真实能力边界,也指明了前进的方向。当最佳模型也只能完美完成 3% 的任务时,我们离"AI 替代知识工作者"还有很长的路要走。但 GLM-5.2 以开源之姿超越 GPT-5.5 的事实也提醒我们:这条路,正在以超出预期的速度被缩短。

