GRPO 与强化微调:推理模型背后的算法革命 | AGIDaily