OpenAI 推理模型帮助医生诊断出 18 例此前未能确诊的罕见儿童遗传病

Kyra 在九岁时开始察觉到身体的异样——空手道课上跟不上同伴的节奏，足球场上跑不出正常的步态，走路时脚后跟总是不自觉地抬起。到了 13 岁，她坐上了轮椅，依赖呼吸机维持生命。多家顶级医疗机构的专家轮番上阵，却始终找不到答案。直到距她 28 岁生日不到一周的那个夏天，一位遗传咨询师拨通了她的电话：一个名为 HSPB8 基因上的移码突变，终于为她的病找到了名字——肌原纤维肌病（myofibrillar myopathy）。

这个诊断并非来自一项新检测，也并非一位新医生。它来自一个 AI 模型，重新审视了那些人类专家早已翻阅过、并判定为"无解"的基因组数据。

376 个未解病例，18 个新答案

6 月 18 日，波士顿儿童医院 Manton 孤儿病研究中心、哈佛大学与 OpenAI 的研究人员联合在《新英格兰医学杂志》AI 子刊 NEJM AI 上发表了一项研究：他们使用 OpenAI 的 o3 Deep Research 推理模型，对 376 个此前经过专家分析仍未能确诊的儿童罕见遗传病病例进行了重新分析。经过独立专家复核、额外实验室检测和 CLIA 认证实验室的临床确认，医生最终在 18 个病例中确立了诊断——在人类专家已经宣告"无解"的病例池中，额外获得了 4.8% 的诊断产出。

这个数字初看不大，但放在语境中分量截然不同。这些病例不是新发初诊，而是已经走过了商业化和机构级基因组分析管线、经过了多学科团队讨论、最终被归档为"无法解决"的案例。对于这个群体，4.8% 绝不是一个舍入误差——而对于那 18 个终于拿到答案的家庭而言，这个数字从来不是统计数据。

罕见病诊断：一场"有检测、无解读"的马拉松

罕见病诊断的结构性困境并不在于缺乏检测手段。对大多数患者而言，检测早已做过。全球约 1.5 亿罕见遗传病患者中，超过半数即使完成了全面的基因组测序也始终得不到确诊。一个孩子的基因组可能在 2018 年就已完整测序，却因当时的知识局限被判为"无法解读"。而同一个基因组，在 2026 年重新分析，就可能得出诊断——因为用于解读基因组的知识库已经膨胀了。每年，数百个新的基因-疾病关联被发现并录入 ClinVar 等参考数据库。五年前看起来毫无意义的变异位点，如今可能指向一个新发现的疾病。

瓶颈从来不是测序数据，而是人类系统性地重新审视这些数据的能力。2024 年一项涵盖 29 项基因组重分析研究的荟萃分析发现，在初次分析后中位间隔 24 个月进行重分析，可额外获得平均 10% 的诊断产出——然而大规模重分析在临床实践中几乎从未发生，因为没有哪家机构拥有能跟上新发现速度的专家队伍。重分析被全球临床遗传学指南推荐多年，但几乎从未被规模化执行。

Manton 中心主任 Alan Beggs 直截了当地描述了这一知识鸿沟："像 Catherine 和我这样的研究人员，不可能把 8000 种不同的疾病都装在脑子里。这就是 AI 的力量。"他的同事、Manton 中心遗传学调查部门的科学主任 Catherine Brownstein 则将瓶颈归结为时间："瓶颈是时间。一位专家一天只能在一个病例上投入那么多精力。"

推理模型如何不同于传统诊断 AI

这项研究的方法论值得仔细审视，因为它揭示了推理模型与传统基因组分析工具之间的本质差异。

针对每个未解病例，研究团队构建了一个去标识化的数据包，包含以人类表型本体论（HPO）术语编码的标准化临床描述——这是一个专为罕见病表型分析设计的超过 18,000 个术语的受控词汇——以及患者年龄、性别等元数据，外加一份经过过滤的基因变异列表，标注了 ClinVar 分类、罕见性评分、预测蛋白质效应和家族成员遗传模式。

这一输入结构对于理解模型实际做了什么至关重要。与标准大语言模型单次前向传播即生成回复不同，OpenAI 的 o3 Deep Research 使用基于强化学习训练的思维链推理，在内部生成多条候选推理链后选择最连贯的一条。模型被要求展示推理过程：将临床特征、遗传模式、变异证据和相关科学文献连接成一个可被人类审阅者质询的连贯假设——而不仅仅是返回一个基因名称。

关键的是，模型并不做出诊断。每个输出至少经过两位独立研究人员使用 ACMG/AMP 框架（将基因变异分为致病性到良性五个等级）进行审阅。只有在合格的临床团队在 CLIA 认证实验室确认发现并将结果返回给家庭后，才算正式确立诊断。

在应用到未解病例之前，团队先用已知诊断的病例验证了工作流程：在初始验证集中，模型在 51 个病例中正确识别了 48 个致病基因和变异；在神经肌肉疾病队列中，57 个病例中正确诊断了 45 个；在一个 15 例长读长基因组集中，正确识别了全部致病基因。模型的自我报告置信度分数与准确率之间存在有意义的关联——模型表达高置信度的病例更可能返回正确结果，这为临床审阅者提供了一个可靠的分类信号。

四组队列的诊断产出

376 个未解病例来自四个不同的临床群体：

队列	病例数	新诊断	诊断产出
神经发育障碍	100	10	10.0%
罕见神经肌肉疾病	61	4	6.6%
早发性精神病	15	2	13.3%
儿童不明原因猝死	200	2	1.0%
总计	376	18	4.8%

早发性精神病队列样本量较小，统计置信区间较宽，研究者提示应谨慎解读。儿童不明原因猝死队列的较低产出反映了儿科心脏事件很少能通过现有测序方法找到单基因解释。值得注意的是，18 个新诊断中有 7 个实际上是"再发现"——答案已经存在于公共数据库中，但此前未被连接到该患者的病历记录中——这凸显了医疗信息碎片化与知识缺失本身一样是重大障碍。

模型"看到"了什么人类漏掉的东西

数个病例暴露出传统计算工具无法复现的推理能力。在一个早发性精神病患者中，模型检测到 22 号染色体上测序信号质量异常的模式，并将其与患者的心脏、免疫、神经发育和精神症状组合联系起来——假设存在一个与 DiGeorge 综合征相关的 22q11.2 缺失。该结构染色体变异后来通过靶向随访测序得到确认。值得注意的是，这个变异从未出现在原始提交给模型的变异列表中；模型是从降解信号质量的"指纹"中推断出这一缺失的。

在其他病例中，模型提出两个基因共同解释复杂临床表现比单一基因更合理的假设——在那些抵制标准单基因解释的病例中识别出可能的双基因病因。这一能力直接针对了传统基因组分析管线的一个已知局限：它们被优化用于寻找单基因病因，在没有明确先验假设的情况下很难浮现复合遗传架构。

模型还在一个神经发育病例中标记了一项可能具有诊断之外意义的发现：在一位白癜风患者的 S1PR1 基因中识别出一个 11 氨基酸缺失，并提出了将该缺失与皮肤色素生成改变和免疫细胞信号传导联系起来的机制假设。这一发现需要独立的实验验证，但展示了 AI 辅助分析在诊断之外的潜在功能——为无法解释的病例生成可验证的疾病机制假说。

AlphaFold 的平行叙事与 AI for Science 的竞争格局

波士顿儿童医院的研究并非孤例。将 AI 深度推理应用于生物医学前沿，正在成为各大 AI 实验室争夺科学合法性的核心战场。

2024 年诺贝尔化学奖授予了 DeepMind 的 Demis Hassabis 和 John Jumper，以表彰 AlphaFold 在蛋白质结构预测上的突破——这一成就被广泛视为 AI 推动科学发现的里程碑。AlphaFold 2 在 CASP14 上以原子级精度解决了困扰学界五十年的蛋白质折叠问题，此后 AlphaFold 3 进一步将预测范围扩展到蛋白质与 DNA、RNA 及小分子的相互作用，其蛋白质结构数据库已为全球研究人员提供了超过两亿个预测结构。

然而就在波士顿儿童医院研究发表的次日——6 月 19 日——John Jumper 宣布在 Google DeepMind 工作近九年后离开，加入 Anthropic。这一消息紧随 Gemini 联合负责人 Noam Shazeer 宣布离开 Google 加入 OpenAI 仅一天之后，在 48 小时内构成了 Google 在 AI 人才领域的两大标志性损失。

Jumper 的离开揭示了一个更深层的趋势：AI 实验室的竞争正从聊天机器人转向能够帮助解决硬科学问题的系统。Anthropic CEO Dario Amodei 据称告诉一些 Mythos 测试者，他们将其比作某种"超越"体验。在这个新阶段，拥有诺贝尔奖章级别的科学信誉不再是锦上添花，而是关键的竞争筹码。

OpenAI 自身也在加码：2026 年 4 月推出的 GPT-Rosalind 是专门面向生物学、基因组学和药物发现的领域专用模型，虽然未被纳入此次波士顿儿童医院的研究评估。与此同时，OpenAI Foundation 已拨款支持 Manton 中心开发一个平台无关、低成本的遗传学 AI 助手，不绑定任何单一商业模型。

局限与展望：从研究到临床的距离

尽管结果令人振奋，研究团队对方法的局限性保持了清醒的自我陈述。研究是回顾性的，患者队列在疾病类别和先前的测序方法上具有异质性。审阅者未被对模型置信度评分设盲，这可能引入偏差——哪些假设获得最彻底的随访可能受到模型置信度信号的影响。时间节省、假阳性负担以及对临床护理的实际影响均未被测量。

大语言模型可以生成听起来合理、但经不起推敲的解释——这正是为什么研究中的每一个模型输出在被计入诊断之前都必须经过独立的人类裁定。OpenAI 明确声明，该研究不描述或认可任何将模型用于消费者自我诊断的意图。所描述的工作流程运行在临床基础设施内部——专家、认证实验室、遗传咨询师和确认流程——AI 输出无法替代其中任何一个环节。

研究人员呼吁进行前瞻性、多中心试验，将 AI 辅助重分析与标准实践在临床上真正重要的指标上进行对比：诊断产出、产出候选假设所需时间、临床医生工作量、假阳性负担、成本以及对患者护理的下游影响。

罕见病领域正处于两条加速曲线的交汇点：基因组测序越来越便宜和普及，而基因-疾病知识体的增长速度超过任何专家团队能够吸收的速度。波士顿儿童医院的研究表明，AI 推理模型可以弥合这一鸿沟——不是通过取代临床遗传学团队，而是通过充当规模化基因组重分析第一次可行的"可扩展性层"。这一定位比标题可能暗示的更窄，也比标题更持久。

对于 Kyra 而言，诊断并未抹去近二十年的不确定性，但给了她和家人此前从未拥有的东西：一个名字，一种终结感，以及与其他同样患有这种超罕见疾病的人的联系。她在接受 ABC News 采访时说："我当时感觉非常不真实，因为我从没想过这辈子能得到答案，我想我的家人也没想过。"她补充道："至少，有一个名字是件好事。"