GRPO 与强化微调：推理模型背后的算法革命

摘要

2025 年初，DeepSeek-R1 以不到 OpenAI o1 训练成本 3% 的代价达到了同等推理水平，其核心依赖的 Group Relative Policy Optimization（GRPO）算法迅速成为开源社区训练推理模型的事实标准。然而，随着社区大规模复现的展开，vanilla GRPO 的诸多缺陷——熵崩溃、奖励噪声、长度偏差——逐渐暴露。2025–2026 年间，DAPO、Dr. GRPO、GRPO++ 等一系列改进方案相继涌现，将 GRPO 从一个"能跑"的算法打磨为一套可规模化部署的训练系统。与此同时，理论工作也开始揭示 GRPO 的边界：它本质上是一个保守的预训练偏好放大器，而非通用推理增强器。本文梳理这一算法演进的完整脉络。

两条路径：RLHF 与 RLVR 的分野

在 GRPO 出现之前，LLM 的强化学习训练几乎被 RLHF（Reinforcement Learning from Human Feedback）范式垄断。RLHF 的核心流程是：收集人类偏好数据 → 训练奖励模型（Reward Model）→ 用 PPO 优化策略。这套流程的问题在于，奖励模型本身就是另一个与策略模型规模相当的神经网络，训练和维护成本极高，且奖励信号容易漂移。

RLVR（Reinforcement Learning with Verifiable Rewards）则走了一条完全不同的路。在数学、编程等可验证领域，答案的正确性可以通过规则（字符串匹配、单元测试）直接判定，无需训练奖励模型。这一思路的奠基性工作来自 DeepSeekMath 论文，随后被 DeepSeek-R1 发扬光大。

Sebastian Raschka 在 2026 年初的 MAD Podcast 中总结道，2025 年 LLM 领域最大的叙事转折就是"从预训练转向后训练，从 RLHF 转向 RLVR"。GRPO 正是 RLVR 范式下最成功的 RL 优化器。

GRPO：用群组归一化替代 Critic

GRPO 的核心创新在于抛弃了 PPO 中的价值函数（Critic）。在标准 PPO 中，优势函数 A(s, a) = Q(s, a) - V(s) 需要通过一个与策略模型规模相当的价值网络来估计——这几乎将内存占用翻倍。GRPO 的做法是：对同一个 prompt 采样多个回答（通常 4–16 个），以组内平均奖励作为基线来计算优势：

A_i = (r_i - mean(r_group)) / std(r_group)

优势估计的简化带来了三个直接收益：其一，不再需要训练价值网络，内存和计算开销大幅降低；其二，组内相对比较天然具备归一化效果，减少了奖励尺度的敏感性；其三，与可验证奖励结合后，整个 RL 训练流程仅需基座模型和规则验证器两个组件。

然而，正如 Cameron Wolfe 在 GRPO++ 中所言，"GRPO 的简单性是欺骗性的"。vanilla GRPO 在规模化训练中暴露出一系列问题。

Vanilla GRPO 的陷阱与 DAPO 的四项修正

DeepSeek-R1 的技术报告虽引发了轰动，但并未提供完整的训练细节。社区在复现过程中发现，直接用 vanilla GRPO 在 Qwen-2.5-32B 上训练，AIME 2024 得分仅为 30%，远低于 DeepSeek 报告中的 47%。来自字节跳动与清华的 DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）论文系统性地诊断了四大问题并提出对应修正：

（1）Clip Higher——解耦裁剪阈值。 PPO/GRPO 的重要性比率裁剪范围默认为 [1-ε, 1+ε]（ε=0.2）。DAPO 发现，这个上界对低概率探索 token 极不公平——一个概率为 0.01 的 token 在正向优势下最多只能涨到 0.012，而高概率 token 几乎不受约束。这导致模型熵快速崩溃，丧失探索能力。DAPO 将上界 ε_high 提升至 0.28，保留下界不变，有效防止了熵崩溃。

（2）Dynamic Sampling——过滤零梯度样本。 随着训练推进，越来越多的 prompt 的所有回答都正确（组内奖励全为 1）。这些样本的优势为零，对梯度无贡献，却消耗计算资源并稀释有效梯度的信噪比。DAPO 采用动态过采样策略：每轮采样后过滤掉"全对"的 prompt，继续采样直到凑满有效 batch。实验表明，这一策略显著提升了样本效率，训练收敛速度大幅加快。

（3）Token-Level Loss——从样本级到 token 级的损失聚合。 原始 GRPO 在样本级别聚合损失（先对每个样本内 token 求平均，再对样本求平均），导致长序列中每个 token 的贡献被稀释。这意味着模型既难以从优质长回答中学习推理模式，也难以有效惩罚长回答中的重复和乱码。DAPO 改为在 token 级别聚合（对所有 token 一视同仁），训练稳定性显著改善。

（4）Overlong Reward Shaping——软性长度惩罚。 传统做法对超出长度上限的样本直接给负奖励。DAPO 提出软惩罚方案：在 [L_max - L_cache, L_max] 区间内线性递增惩罚，超限才给满分惩罚。这避免了将"推理正确但略长"的样本粗暴地标记为负样本。

四项修正叠加后，DAPO 在 AIME 2024 上达到 50% 准确率，超过 DeepSeek-R1-Zero-Qwen-32B 的 47%，且仅用了后者一半的训练步数。

Dr. GRPO：长度偏差与难度归一化

与 DAPO 几乎同时，另一篇重要论文 Understanding R1-Zero-Like Training: A Critical Perspective（社区称为 Dr. GRPO）从不同角度切入 GRPO 的缺陷。

Dr. GRPO 指出，vanilla GRPO 的损失函数中存在两个系统性偏差：其一，对于正优势样本，短回答因 1/|o| 归一化因子而获得不成比例的奖励提升，导致模型倾向于生成短回答而非充分推理；其二，对于负优势样本，长回答因归一化因子而受到更轻的惩罚，纵容了冗长而错误的输出。这两个效应叠加，恰好与我们希望模型"在正确时充分推理、在错误时快速收敛"的目标背道而驰。

Dr. GRPO 的解决方案是去掉序列长度归一化，让每个 token 在损失中贡献相等。同时，它还发现 GRPO 的组内标准差归一化对不同难度的问题不公平——高难度问题天然方差大，优势信号被稀释；低难度问题方差小，梯度更新反而更强。Dr. GRPO 提议去掉组内标准差归一化，让难度各异的问题在梯度更新中获得平等的权重。

不过，Nathan Lambert 在 Interconnects 的综述中指出，Dr. GRPO 的消融实验并未展示最终下游性能的显著提升——它改善了训练动态（更短的输出长度、更稳定的奖励曲线），但最终准确率并未超越基线。这暗示在当前阶段，数据质量和多样性对最终性能的影响可能大于算法的微调。

理论边界：GRPO 是放大器还是创造者？

2026 年，一篇提交至顶会的论文 Can GRPO Help LLMs Transcend Their Pretraining Origin? 从理论层面给出了一个有趣的结论：GRPO 本质上是一个保守的重加权机制，受限于基座模型的预训练分布，无法发现完全新颖的解决方案。

研究者通过从头训练 Transformer 的受控实验，在推理深度、输入长度、token 表示和组合泛化四个维度上验证了这一结论。OOD（分布外）泛化仅在目标任务与预训练偏好对齐时才会出现，而 ID（分布内）性能增益会随着饱和度上升而递减。

这一理论框架将 GRPO 重新定位为"预训练偏好的锐化器"而非"通用推理增强器"。对于社区而言，这意味着单纯堆 RL 训练步数并不能无限提升推理能力——基座模型的质量和多样性仍然是天花板。

展望：后 GRPO 时代的算法方向

尽管 GRPO 是当前最流行的选择，但多位研究者提醒：GRPO 并非"特殊的 RL 算法"。Nathan Lambert 指出，GRPO 与 RLOO（REINFORCE Leave One Out）在实现上几乎相同，区别仅在于是否使用 PPO 风格的裁剪。Kimi k1.5 团队使用了在线策略镜像下降而非 GRPO，OpenReasonerZero 则回归了 PPO + GAE 的经典组合。

算法进步的真正方向可能不在于对 GRPO 本身的无尽修补，而在于三个更根本的问题：

数据工程：Kimi k1.5 和 OpenReasonerZero 的实验反复证明，RL 提示词的质量、多样性和难度平衡比算法细节重要得多。一个精心筛选的 57K 提示词集，可能比十个算法技巧更能提升最终性能。
从数学到开放域：当前 RLVR 的成功主要局限于数学和编程等可验证领域。如何将可验证奖励扩展到开放域推理——如医学诊断、法律分析、科学研究——是下一个关键挑战。DeepSeek 的 Generalist Reward Model 和过程奖励模型（PRM）的探索正在这一方向上前行。
超越预训练分布：Can GRPO Help LLMs Transcend Their Pretraining Origin? 的理论结论暗示，下一代 RL 算法需要设计能够真正扩展模型能力边界的机制，而非仅仅锐化既有能力。这可能意味着在 RL 训练中引入更结构化的探索策略，或与 search-based 方法（如 MCTS）更深度地结合。

GRPO 的故事提供了一个经典案例：一个看似简单的算法创新——用群组平均替代价值函数——如何撬动整个领域的范式转变。但正如所有伟大的算法一样，它的真正价值不在于其自身的完美，而在于它打开了哪些新的问题空间。

本文基于截至 2026 年 6 月 19 日的公开研究成果撰写。