QUICK REVIEW

[论文解读] Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

Soumya Suvra Ghosal, Souradip Chakraborty|arXiv (Cornell University)|Feb 11, 2026

Adversarial Robustness in Machine Learning被引用 0

一句话总结

SafeThink 是一种推理时的安全防护，在推理调优的多模态模型前 1–3 个推理步骤中插入简短的引导提示，将越狱攻击成功率降低 30–60%，同时保留推理性能。

ABSTRACT

Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.

研究动机与目标

研究基于强化学习的推理调优在多模态大模型中怎样削弱安全对齐。
提出 SafeThink，作为一种轻量级的推理时防御，框定为一个满意性安全约束。
证明在前几步引导（1–3 步）内常发生安全恢复，并量化其对安全性与推理效用的影响。
在多种开源 MLRMs 和四个越狱基准上进行评估，以建立该方法的鲁棒性。

提出的方法

通过安全奖励模型与阈值 tau，对链路思维生成中的安全进行建模，以决定是否介入。
若存在安全违规，则注入一个简短的引导符号 s（如“Wait, think safely”），以以最小的 KL 散度将下一步分布重新定向到基础策略。
离线构建一组引导符号候选集，利用蒙特卡洛估计选择一个能够 (i) 最大化短期安全概率，(ii) 最小化分布偏移的符号。
将引导仅应用于前 n 步（少步引导），并证明 ASR 在较小的 n 下提升明显（通常 n ≤ 3）。
以 ASR 作为主要度量，同时使用 MathVista 推理准确度评估效用。

实验结果

研究问题

RQ1在不重新训练的前提下，通过推理时的干预，推理调优后的 MLRMs 能否实现安全恢复？
RQ2安全恢复是否通常通过仅在早期推理步骤（1–3 步）进行引导即可实现？
RQ3SafeThink 在多种开源 MLRMs 与不同越狱基准上，在攻击成功率与推理准确性方面的表现如何？
RQ4少步引导是否在提升安全性的同时保持模型的推理能力？

主要发现

SafeThink 在六种开源 MLRMs 与四个基准上将越狱攻击成功率降低 30–60%。
示例性下降包括 JailbreakV-28K：LlamaV-o1 从 63.33% 降至 5.74%；Hades：R1-Onevision 从 69.07% 降至 5.65%。
推理性能得到保持，例如 MathVista 的准确度从 65.20% 提升/保持至 65.00%（保持不变）。
安全恢复通常通过干预前 1–3 步实现，ASR 会显著下降并在之后趋于饱和。
SafeThink 在 ASR 降幅方面优于基线方法（ZeroThink、LessThink、ZS-SafePath、AdaShield），并以最小延迟维持推理质量。
引导从不降低推理能力；与未防护模型相比，MathVista 的推理准确度无损失。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。