[论文解读] Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away
SafeThink 是一种推理时的安全防护,在推理调优的多模态模型前 1–3 个推理步骤中插入简短的引导提示,将越狱攻击成功率降低 30–60%,同时保留推理性能。
Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.
研究动机与目标
- 研究基于强化学习的推理调优在多模态大模型中怎样削弱安全对齐。
- 提出 SafeThink,作为一种轻量级的推理时防御,框定为一个满意性安全约束。
- 证明在前几步引导(1–3 步)内常发生安全恢复,并量化其对安全性与推理效用的影响。
- 在多种开源 MLRMs 和四个越狱基准上进行评估,以建立该方法的鲁棒性。
提出的方法
- 通过安全奖励模型与阈值 tau,对链路思维生成中的安全进行建模,以决定是否介入。
- 若存在安全违规,则注入一个简短的引导符号 s(如“Wait, think safely”),以以最小的 KL 散度将下一步分布重新定向到基础策略。
- 离线构建一组引导符号候选集,利用蒙特卡洛估计选择一个能够 (i) 最大化短期安全概率,(ii) 最小化分布偏移的符号。
- 将引导仅应用于前 n 步(少步引导),并证明 ASR 在较小的 n 下提升明显(通常 n ≤ 3)。
- 以 ASR 作为主要度量,同时使用 MathVista 推理准确度评估效用。
实验结果
研究问题
- RQ1在不重新训练的前提下,通过推理时的干预,推理调优后的 MLRMs 能否实现安全恢复?
- RQ2安全恢复是否通常通过仅在早期推理步骤(1–3 步)进行引导即可实现?
- RQ3SafeThink 在多种开源 MLRMs 与不同越狱基准上,在攻击成功率与推理准确性方面的表现如何?
- RQ4少步引导是否在提升安全性的同时保持模型的推理能力?
主要发现
- SafeThink 在六种开源 MLRMs 与四个基准上将越狱攻击成功率降低 30–60%。
- 示例性下降包括 JailbreakV-28K:LlamaV-o1 从 63.33% 降至 5.74%;Hades:R1-Onevision 从 69.07% 降至 5.65%。
- 推理性能得到保持,例如 MathVista 的准确度从 65.20% 提升/保持至 65.00%(保持不变)。
- 安全恢复通常通过干预前 1–3 步实现,ASR 会显著下降并在之后趋于饱和。
- SafeThink 在 ASR 降幅方面优于基线方法(ZeroThink、LessThink、ZS-SafePath、AdaShield),并以最小延迟维持推理质量。
- 引导从不降低推理能力;与未防护模型相比,MathVista 的推理准确度无损失。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。