NRT-Bench:在核电站模拟器中红队测试 LLM 操作员,8.7%-12.1% 攻击成功,且同一套护栏对不同模型效果相反 | AGIDaily