想象一下:你给一个 AI 100 万美元,告诉它去运营一家 SaaS 创业公司,500 天后回来汇报。它需要自己定价、投放广告、管理研发、采购基础设施、谈判企业客户、监控社交媒体——所有决策通过 Python 代码完成,所有反馈来自 19 张 SQL 数据表和嘈杂的模拟社交网络。500 天后,大多数 AI 已经破产。
这就是普林斯顿大学 Haozhe Chen、Karthik Narasimhan 和 Zhuang Liu 在 6 月 16 日发布的 CEO-Bench。它不是一个比谁代码写得快的 benchmark,而是一次对 AI Agent「长期驾驭复杂系统」能力的极限测试。
12 个模型,500 天,一场生存游戏
CEO-Bench 模拟了一家名为 NovaMind 的订阅制软件公司。Agent 从零客户、100 万美元现金起步,在 500 个模拟日内通过 34 个工具做出全部经营决策——涵盖定价、营销、研发、基础设施、客户支持、企业销售、市场调研和社交媒体八个维度。26 个客户群体各有隐藏的支付意愿和质量阈值,Agent 只能通过数据分析和间接信号来推断市场状态。
论文评估了 12 个模型(含闭源和开源),每个模型运行三次,结果堪称残酷:
| 模型 | 破产次数 | 最高最终现金 | 最高存活天数 |
|---|---|---|---|
| Claude Fable 5 | 0/2 | $47,148,164 | 500 |
| Claude Opus 4.8 | 0/3 | $27,777,568 | 500 |
| GPT-5.5 | 2/3 | $21,297,707 | 500 |
| Claude Opus 4.7 | 0/3 | $389,959 | 500 |
| Kimi K2.6 | 1/3 | $98,050 | 500 |
| GLM 5.2 | 0/3 | $91,371 | 500 |
| Claude Sonnet 4.6 | 2/3 | $69,766 | 500 |
| GLM 5.1 | 3/3 | $0 | 324 |
| Claude Haiku 4.5 | 3/3 | $0 | 231 |
| Gemini 3 Flash | 3/3 | $0 | 226 |
| DeepSeek V4 Pro | 3/3 | $0 | 176 |
| Grok 4.20 | 3/3 | $0 | 37 |
三条分界线清晰可见:Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 是仅有的三个在最佳运行中超过起始资金的模型;Claude Opus 4.7、Kimi K2.6、GLM 5.2 和 Claude Sonnet 4.6 能活到 500 天但资产缩水;其余六个模型全部破产。Grok 4.20 最惨——平均 28 天就出局。
但即使「优等生」也远未触及天花板。论文估计的理论现金上限约为 22 亿美元,而最佳模型成绩(Fable 5 的 4714 万美元)与之相差近两个数量级。一个简单的规则基准(固定价格、集中投放少数客户群、按利用率调容量)都能跑出 1576 万美元——超过 GPT-5.5 的最佳成绩。
为什么「CEO」比「程序员」难得多
CEO-Bench 的核心洞察是:当前的 AI Agent 擅长「做完一件事」,但不会「持续做对的事」。论文将这种能力差距归结为四个维度:
长周期 + 不确定性。 成本即刻产生,但收入、客户留存、研发回报要等数周才显现。R&D 项目的完成时间和质量提升都是随机的(使用 Normal、Poisson、Bernoulli、Log-normal 等多种分布建模),Agent 必须在因果链模糊的情况下做跨期决策。
噪声环境 + 信息获取。 Agent 看不到客户的真实满意度、支付意愿或流失倾向。它只能通过订阅数据、客服工单、社交媒体帖子来推断——就像真实 CEO 看仪表盘和舆情报告。五个广告渠道对不同客户群的效果是隐藏的,Agent 需要通过分析获客数据来发现最优投放组合。
非稳态环境。 竞争对手会定期提高客户质量期望,且对 Agent 的研发投入做出适应性反应(论文用参数 u 控制竞争强度)。客户偏好随时间漂移,不同群体的价格敏感度和质量要求以不同速率变化。宏观经济周期影响企业客户的支付意愿和席位数量。Agent 必须不断搜集新信息并调整策略。
多目标协调。 单纯扩张客户群可能因基础设施不足导致服务宕机;过度削减成本会损害产品质量和口碑;对某个客户群过度投入研发可能引发竞争对手在相邻市场的报复。声誉会在客户群之间传播——一个企业客户群的质量事故可能溢出到消费者市场。
最优 Agent 的行为:写代码、做模拟、挖隐藏偏好
论文对 Agent 行为轨迹的分析揭示了成功与失败的关键差异:
战略探索宽度。 GPT-5.5 和 Claude Opus 4.8 在 500 天中频繁调整获客、研发、运营、产能和定价策略,工具使用分布均匀;Claude Opus 4.7 则倾向于保守的现金保存策略,反复削减开支。论文用备忘录中的「if」出现频率量化条件规划——Opus 4.8 和 GPT-5.5 显著高于其他模型。
殊途同归。 尽管 Opus 4.8 和 GPT-5.5 最终现金余额相近,路径截然不同:Opus 4.8 在模拟中期客户数一度降至零,随后转向被动收割模式;GPT-5.5 全程维持稳定客户群。两者聚焦的客户群也完全不同。
写代码做分析。 最优 Agent 不只是调用工具——它们编写自己的分析代码。Claude Opus 4.8 构建了基于客户群组的现金流模拟器,在不同情景下预测未来现金余额。GPT-5.5 挖掘谈判历史数据库,从噪声中推断企业客户的隐藏价格和质量偏好。
精细化执行。 GPT-5.5 将 89% 的研发预算投入到针对特定客户群的定向开发,Opus 4.8 为 87%,而 Kimi K2.6 仅 10%。定向开发的好处是竞争对手更难模仿——论文中这被建模为更慢的竞争追赶速度。
StaminaBench 与 CEO-Bench:两种「耐力」的对照
CEO-Bench 发布的同一周,亚马逊科学团队也发布了 StaminaBench(arXiv:2606.19613),测试编码 Agent 在 100 轮连续变更请求中的耐力。两者形成了一个有趣的对照:
- StaminaBench 测的是「代码耐力」:Agent 能否在实现 REST API 后,连续应对 100 轮需求变更而不引入 bug?结果同样惨烈——所有测试模型在 5-6 轮内就失败了,只有将测试反馈传回 Agent 并允许重试才能将存活轮数提升最多 12 倍。
- CEO-Bench 测的是「商业耐力」:Agent 能否在 500 天的多维度经营中维持正现金流?
两者共通之处在于:都揭示了当前 Agent 在长周期任务中「局部能力」与「全局持续性」之间的断裂。StaminaBench 中 Agent 能写好单个函数但无法防止代码库级退化;CEO-Bench 中 Agent 能做好单次定价决策但无法在客户偏好漂移、竞争对手施压、现金流波动的交织中保持连贯战略。
这说明了什么
CEO-Bench 最诚实的一点是:它没有试图用 LLM 当裁判。几乎所有模拟结果都由显式机制生成——客户是否订阅取决于一个微观经济学驱动的参与规则(Mussa-Rosen 模型),而非另一个 LLM 的「判断」。这避免了 Vending-Bench 等早期 benchmark 中 LLM 模拟供应商被 Agent 空洞承诺「忽悠」的陷阱。
论文标题中的核心问题——「Can Agents Play the Long Game?」——目前的答案是:能勉强上场,但远未到能赢的程度。最强的模型探索了合理的策略空间,写出了令人印象深刻的辅助分析代码,甚至展现了条件规划和情景推演的能力。但它们仍然无法在多次运行中稳定盈利,且与一个简单规则基准和理论天花板之间有着巨大鸿沟。
这指向一个更深层的问题:当前 AI 的训练范式天然偏向短程任务——无论是 RLHF 中的即时奖励信号,还是 next-token prediction 的局部优化目标,都难以培育「延迟满足」式的战略耐心。CEO-Bench 没有声称自己解决了这个问题,但它提供了一个清晰的测量工具——而测量,往往是进步的第一步。

