当 AI 算力需求增速远超地球能源供给能力时,你的数据中心该往哪里搬?Google 的研究者给出了一个看似科幻的答案:搬上太空,直接插到太阳边上。
2025 年 11 月,Google DeepMind 和 Google Research 的研究者在 arXiv 上发表了一篇论文《Towards a future space-based, highly scalable AI infrastructure system design》,系统性地论证了用卫星集群搭载 TPU 加速器芯片、在近地轨道上构建可扩展 AI 计算基础设施的可行性。这项名为 Project Suncatcher 的研究计划,由 Blaise Agüera y Arcas 和 James Manyika 等 Google 多位高管级研究者共同署名,其认真程度远超一般的企业研究白皮书。
能源困境:AI 正在吃掉地球
论文开门见山地指出了一组不容回避的数字:太阳每秒输出 3.86×10²⁶ 瓦的能量,相当于人类全部发电量的 100 万亿倍以上。在合适的轨道上,一块太阳能电池板的年发电量可达地球中纬度地区同规格面板的 8 倍,且几乎可以不间断发电——无需电池储能来应对昼夜交替。
与此同时,Transformer 模型和生成式多模态 AI 的崛起使计算需求呈爆炸式增长。尽管 Google 已将 Gemini 推理的能耗在一年内降低了 33 倍,但 AI 产品和服务的增长速度更快。Google 虽然也在投资核聚变、地热等新型地面能源,但论文认为,如果 AI 确实是一种"基础通用技术"——类似于电力或蒸汽机——那么"AI 计算需求将继续增长,驱动它的能源需求亦然"。
与其在地球上争夺有限的水、土地和电力资源,不如直接把数据中心建到太阳旁边。这就是 Project Suncatcher 的核心逻辑。
技术蓝图:81 颗卫星编织的轨道计算网络
论文提出的方案相当具体。系统由数十颗搭载 Google TPU 加速器芯片的太阳能卫星组成,部署在晨昏太阳同步近地轨道(dawn-dusk sun-synchronous LEO),平均高度 650 公里。在这一轨道上,卫星几乎始终暴露在阳光中,最大化太阳能收集效率。
卫星之间通过**自由空间光通信(FSO)**实现互联。与现有商业星间激光链路(如 Starlink 的约 100 Gbps)不同,Google 的方案要求每对卫星之间支持约 10 Tbps 的聚合带宽,才能支撑大规模分布式 ML 训练任务。论文分析显示,使用商用密集波分复用(DWDM)收发器配合空间复用技术,这一目标在物理上是可行的。
关键在于距离。接收光功率与距离的平方成反比,因此卫星必须飞得足够近——论文提出了一个 81 颗卫星、半径 1 公里的平面集群作为示例配置。相邻卫星间距在 100 至 200 米之间振荡,这在现有卫星星座中是前所未有的紧凑编队。Google 已经在实验室环境中用商用组件搭建了验证系统,单对收发器成功实现了 800 Gbps 单向(1.6 Tbps 双向)传输。
辐射考验:Trillium TPU 在质子束下表现如何
消费级芯片上天,最令人担忧的是辐射。论文公布了 Google 第六代 Trillium Cloud TPU(v6e)在加州大学戴维斯分校克罗克核实验室的 67 MeV 质子束测试结果——这是首次公开发表的高性能 ML 加速器太空辐射测试数据。
结果令人振奋。在目标太阳同步轨道(10 mm 铝等效屏蔽)下,五年任务周期的预计总电离剂量(TID)约为 750 rad(Si)。而 Trillium TPU 的高带宽内存(HBM)子系统——整个芯片中最敏感的组件——在累积剂量达到 2 krad(Si) 后才开始出现异常,接近五年任务要求的 3 倍。计算核心和端到端 ML 工作负载测试在单芯片最高 15 krad(Si) 的剂量下均正常运行,未出现任何可归因于 TID 的硬故障。
单粒子效应(SEE)方面,核心逻辑和片上 SRAM 是主要敏感点,主要表现为静默数据损坏(SDC)。对于典型的 Transformer 推理工作负载,观测到的 SDC 率约为 1 次/17 rad,在 150 rad(Si)/年的轨道剂量下,折算为约每 300 万次推理出现一次错误的极低概率。论文谨慎指出,这一错误率对推理任务"可能可以接受",但 SEE 对训练任务的影响以及系统级缓解策略的有效性仍需进一步研究。
地面 vs 太空:散热、空间与物理极限
将太空 AI 基础设施与地面数据中心放在一起比较,差异是全方位的。
能源:地面数据中心依赖电网,越来越多的大型云厂商不得不直接投资核电站来满足需求。太空方案则直接利用太阳——在晨昏轨道上接近 24/7 的零碳能源。
散热:真空环境既是挑战也是机遇。论文指出,TPU 在真空中运行需要先进的导热界面材料和热管系统将热量传导至专用辐射器。但太空的天然低温环境(通过辐射散热)理论上可以提供比地面强制风冷或液冷更高的热效率,前提是热管理系统设计得当。
物理空间:地面超大规模数据中心占地数百英亩,且面临社区反对、水资源竞争等日益严峻的社会阻力。Ars Technica 在评论中写道:"地面数据中心脏、吵、对电力和水的需求永无止境,这导致许多社区反对在居民区附近建设。把它们放到太空可以解决所有人的问题——除非你是一位天文学家。"
可维护性:这是太空方案最大的软肋。地面数据中心中,TPU 故障可以由技术人员手动更换,成本低廉。在轨道上,这显然不现实。论文给出的初步方案是冗余配置,同时指出类似 DiLoCo 等降低通信需求的研究方向也可能提高系统容错能力。
经济账:$200/kg 的临界点
发射成本是太空 AI 基础设施经济可行性的决定性变量。论文从两个路径进行了分析:
学习曲线分析:基于 SpaceX 从 Falcon 1 到 Falcon Heavy 的历史发射数据,论文估算出约 20% 的学习率(累计发射质量每翻一倍,每公斤价格下降约 20%)。若这一学习率得以维持——需要约 180 次 Starship 发射/年——到 2030 年代中期,近地轨道发射价格可降至 ≤$200/kg。即便发射频率降低 70%,价格也可降至约 $300/kg,仍具实质性影响。
Starship 成本模型:基于 Starship 4 的公开规格,10 倍组件复用可将发射成本降至约 $60/kg;若实现 SpaceX 设想的 100 倍复用目标,成本可低至 $15/kg。
论文进一步比较了太空与地面的每千瓦年成本。以 Starlink v2 型卫星星座为参照,当发射成本降至 $200/kg 时,摊薄到卫星寿命期的"发射功率价格"约为 $810/kW/年。相比之下,美国地面数据中心的电力成本约为 $570–3,000/kW/年(取决于区域电价和 PUE 值)。论文的结论是:"如果 LEO 发射成本达到 $200/kg,那么按每千瓦计算,发射成本摊销后可与地面数据中心能源成本大致相当。"
编队飞行:百米级精度的轨道舞蹈
81 颗卫星在 1 公里半径内密集编队,对轨道动力学提出了极高要求。论文使用 Hill-Clohessy-Wiltshire 方程作为起点,结合 JAX 实现的可微分数值模型,对 J2 项(地球扁率扰动)等非开普勒效应进行了精细建模。
模拟结果显示,在纯开普勒条件下,星座每个完整轨道周期内完成两次形状循环,且零 Δv 需求即可完美复现。加入 J2 校正后,通过将轴比微调至 2:1.0037,可将 J2 漂移控制在每年每公里最大偏离距离 <3 m/s。论文认为,编队飞行"仅需适度的轨道维持机动,超出单颗卫星精确位置保持所需的部分"。
值得注意的是,论文还提出了使用高精度 ML 模型控制大规模星座的方法,这意味着 Google 正在将其 AI 能力直接应用于解决太空基础设施的自主控制问题。
这不是科幻:Google 的诚意体现在哪里
判断一个企业研究项目是"公关噱头"还是"认真的技术探索",有几个硬指标:谁署名、有没有原型、有没有时间表。
Project Suncatcher 在这三项上都给出了明确答案。
署名阵容:论文作者包括 Blaise Agüera y Arcas(Google DeepMind 副总裁)、James Manyika(Google 研究、技术与社会高级副总裁),以及来自 Paradigms of Intelligence 研究团队的 Travis Beals、Thomas Fischbacher 等。论文致谢部分还提到了 Thomas Zurbuchen(前 NASA 科学任务理事会副主任)对系统架构的贡献。
原型验证:论文报告了多项已完成的实验验证——800 Gbps 自由空间光通信的桌面演示、Trillium TPU 的质子系统辐射测试、JAX 轨道动力学模型。Google CEO Sundar Pichai 在 X 上转发论文时评论道:"Only possible because of SpaceX's massive advances in launch technology!" Elon Musk 则回应:"SpaceX team is incredible. All done without AI so far, even Starship. With AI, I can't even imagine the possibilities."
时间表:Google 已与地球成像公司 Planet 合作,计划在 2027 年初发射两颗原型卫星,每颗搭载 4 个 TPU,测试硬件在轨运行和星间光链路分布式 ML 任务。这将是 Project Suncatcher 从理论走向实践的第一个关键里程碑。
论文将 Project Suncatcher 定位为 Google 长期"登月计划"传统的一部分——与十年前的量子计算和十五年前的自动驾驶(Waymo)一脉相承。正如 Travis Beals 在博客中所写:"与所有登月计划一样,未知因素会很多,但正是本着这种精神,我们在十年前开始了大规模量子计算机的构建——当时它还不被认为是一个现实的工程目标。"
远未解决的挑战
尽管论文给出了令人鼓舞的初步结论,但它坦率地列出了大量尚未解决的工程挑战。其中最关键的三项是:热管理(高功率密度 TPU 在真空中的散热)、星地高带宽通信(论文提到 NASA 的 TBIRD 任务在 2023 年演示了 200 Gbps 的星地激光通信,但距离 10 Tbps 级别仍有巨大差距)、以及在轨可靠性与维修策略。
论文在讨论部分展望了一个更激进的方向:随着大规模量产推动高度集成设计,未来的太空计算卫星可能将计算、散热和电力系统整合为类似智能手机 SoC 的一体化架构,甚至基于神经细胞自动机(neural cellular automata)等新型计算基板。
无论 Project Suncatcher 最终能否实现其完整愿景,这篇论文已经完成了一项重要工作:它证明了太空 AI 基础设施的核心概念"不被基础物理或不可逾越的经济障碍所排除"。对于正面临能源、土地和社会压力的全球 AI 产业而言,把目光投向头顶的星空,或许不再只是科幻小说里的情节。

