CEO-Bench：让 AI 当 500 天 CEO，只有 Claude Opus 和 GPT-5.5 活下来，且都不赚钱

想象一下：你给一个 AI 100 万美元，告诉它去运营一家 SaaS 创业公司，500 天后回来汇报。它需要自己定价、投放广告、管理研发、采购基础设施、谈判企业客户、监控社交媒体——所有决策通过 Python 代码完成，所有反馈来自 19 张 SQL 数据表和嘈杂的模拟社交网络。500 天后，大多数 AI 已经破产。

这就是普林斯顿大学 Haozhe Chen、Karthik Narasimhan 和 Zhuang Liu 在 6 月 16 日发布的 CEO-Bench。它不是一个比谁代码写得快的 benchmark，而是一次对 AI Agent「长期驾驭复杂系统」能力的极限测试。

12 个模型，500 天，一场生存游戏

CEO-Bench 模拟了一家名为 NovaMind 的订阅制软件公司。Agent 从零客户、100 万美元现金起步，在 500 个模拟日内通过 34 个工具做出全部经营决策——涵盖定价、营销、研发、基础设施、客户支持、企业销售、市场调研和社交媒体八个维度。26 个客户群体各有隐藏的支付意愿和质量阈值，Agent 只能通过数据分析和间接信号来推断市场状态。

论文评估了 12 个模型（含闭源和开源），每个模型运行三次，结果堪称残酷：

模型	破产次数	最高最终现金	最高存活天数
Claude Fable 5	0/2	$47,148,164	500
Claude Opus 4.8	0/3	$27,777,568	500
GPT-5.5	2/3	$21,297,707	500
Claude Opus 4.7	0/3	$389,959	500
Kimi K2.6	1/3	$98,050	500
GLM 5.2	0/3	$91,371	500
Claude Sonnet 4.6	2/3	$69,766	500
GLM 5.1	3/3	$0	324
Claude Haiku 4.5	3/3	$0	231
Gemini 3 Flash	3/3	$0	226
DeepSeek V4 Pro	3/3	$0	176
Grok 4.20	3/3	$0	37

三条分界线清晰可见：Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 是仅有的三个在最佳运行中超过起始资金的模型；Claude Opus 4.7、Kimi K2.6、GLM 5.2 和 Claude Sonnet 4.6 能活到 500 天但资产缩水；其余六个模型全部破产。Grok 4.20 最惨——平均 28 天就出局。

但即使「优等生」也远未触及天花板。论文估计的理论现金上限约为 22 亿美元，而最佳模型成绩（Fable 5 的 4714 万美元）与之相差近两个数量级。一个简单的规则基准（固定价格、集中投放少数客户群、按利用率调容量）都能跑出 1576 万美元——超过 GPT-5.5 的最佳成绩。

为什么「CEO」比「程序员」难得多

CEO-Bench 的核心洞察是：当前的 AI Agent 擅长「做完一件事」，但不会「持续做对的事」。论文将这种能力差距归结为四个维度：

长周期 + 不确定性。 成本即刻产生，但收入、客户留存、研发回报要等数周才显现。R&D 项目的完成时间和质量提升都是随机的（使用 Normal、Poisson、Bernoulli、Log-normal 等多种分布建模），Agent 必须在因果链模糊的情况下做跨期决策。

噪声环境 + 信息获取。 Agent 看不到客户的真实满意度、支付意愿或流失倾向。它只能通过订阅数据、客服工单、社交媒体帖子来推断——就像真实 CEO 看仪表盘和舆情报告。五个广告渠道对不同客户群的效果是隐藏的，Agent 需要通过分析获客数据来发现最优投放组合。

非稳态环境。 竞争对手会定期提高客户质量期望，且对 Agent 的研发投入做出适应性反应（论文用参数 u 控制竞争强度）。客户偏好随时间漂移，不同群体的价格敏感度和质量要求以不同速率变化。宏观经济周期影响企业客户的支付意愿和席位数量。Agent 必须不断搜集新信息并调整策略。

多目标协调。 单纯扩张客户群可能因基础设施不足导致服务宕机；过度削减成本会损害产品质量和口碑；对某个客户群过度投入研发可能引发竞争对手在相邻市场的报复。声誉会在客户群之间传播——一个企业客户群的质量事故可能溢出到消费者市场。

最优 Agent 的行为：写代码、做模拟、挖隐藏偏好

论文对 Agent 行为轨迹的分析揭示了成功与失败的关键差异：

战略探索宽度。 GPT-5.5 和 Claude Opus 4.8 在 500 天中频繁调整获客、研发、运营、产能和定价策略，工具使用分布均匀；Claude Opus 4.7 则倾向于保守的现金保存策略，反复削减开支。论文用备忘录中的「if」出现频率量化条件规划——Opus 4.8 和 GPT-5.5 显著高于其他模型。

殊途同归。 尽管 Opus 4.8 和 GPT-5.5 最终现金余额相近，路径截然不同：Opus 4.8 在模拟中期客户数一度降至零，随后转向被动收割模式；GPT-5.5 全程维持稳定客户群。两者聚焦的客户群也完全不同。

写代码做分析。 最优 Agent 不只是调用工具——它们编写自己的分析代码。Claude Opus 4.8 构建了基于客户群组的现金流模拟器，在不同情景下预测未来现金余额。GPT-5.5 挖掘谈判历史数据库，从噪声中推断企业客户的隐藏价格和质量偏好。

精细化执行。 GPT-5.5 将 89% 的研发预算投入到针对特定客户群的定向开发，Opus 4.8 为 87%，而 Kimi K2.6 仅 10%。定向开发的好处是竞争对手更难模仿——论文中这被建模为更慢的竞争追赶速度。

StaminaBench 与 CEO-Bench：两种「耐力」的对照

CEO-Bench 发布的同一周，亚马逊科学团队也发布了 StaminaBench（arXiv:2606.19613），测试编码 Agent 在 100 轮连续变更请求中的耐力。两者形成了一个有趣的对照：

StaminaBench 测的是「代码耐力」：Agent 能否在实现 REST API 后，连续应对 100 轮需求变更而不引入 bug？结果同样惨烈——所有测试模型在 5-6 轮内就失败了，只有将测试反馈传回 Agent 并允许重试才能将存活轮数提升最多 12 倍。
CEO-Bench 测的是「商业耐力」：Agent 能否在 500 天的多维度经营中维持正现金流？

两者共通之处在于：都揭示了当前 Agent 在长周期任务中「局部能力」与「全局持续性」之间的断裂。StaminaBench 中 Agent 能写好单个函数但无法防止代码库级退化；CEO-Bench 中 Agent 能做好单次定价决策但无法在客户偏好漂移、竞争对手施压、现金流波动的交织中保持连贯战略。

这说明了什么

CEO-Bench 最诚实的一点是：它没有试图用 LLM 当裁判。几乎所有模拟结果都由显式机制生成——客户是否订阅取决于一个微观经济学驱动的参与规则（Mussa-Rosen 模型），而非另一个 LLM 的「判断」。这避免了 Vending-Bench 等早期 benchmark 中 LLM 模拟供应商被 Agent 空洞承诺「忽悠」的陷阱。

论文标题中的核心问题——「Can Agents Play the Long Game?」——目前的答案是：能勉强上场，但远未到能赢的程度。最强的模型探索了合理的策略空间，写出了令人印象深刻的辅助分析代码，甚至展现了条件规划和情景推演的能力。但它们仍然无法在多次运行中稳定盈利，且与一个简单规则基准和理论天花板之间有着巨大鸿沟。

这指向一个更深层的问题：当前 AI 的训练范式天然偏向短程任务——无论是 RLHF 中的即时奖励信号，还是 next-token prediction 的局部优化目标，都难以培育「延迟满足」式的战略耐心。CEO-Bench 没有声称自己解决了这个问题，但它提供了一个清晰的测量工具——而测量，往往是进步的第一步。