QUICK REVIEW

[論文レビュー] Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

Soumya Suvra Ghosal, Souradip Chakraborty|arXiv (Cornell University)|Feb 11, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

SafeThinkは推論時の安全性防御で、推論チューニングされたマルチモーダルモデルの最初の1–3回の推論ステップに brief steering prompt を注入し、 Jailbreak 攻撃の成功率を30–60%削減しつつ推論性能を維持します。

ABSTRACT

Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.

研究の動機と目的

reinforcement-learningベースの推論チューニングがマルチモーダル大型推論モデル（MLRM）における安全性の整合性を劣化させるかを調査する。
SafeThinkを、満足安全性制約として位置づけた軽量な推論時防御として提案する。
安全性の回復がしばしば最初の数ステアリングステップ（1–3）で起こることを示し、それが安全性と推論有用性に与える影響を定量化する。
複数のオープンソースMLRMおよび4つの jailbreak ベンチマークを横断して評価し、手法の堅牢性を確立する。

提案手法

連鎖思考生成時の安全性を安全報酬モデルと閾値τで評価し、介入するかを決定する。
安全性が侵害された場合、短い steering トークン s（例: ‘Wait, think safely’）を注入して次のステップ分布を基底方策からのKL発散を最小化するよう再構成する。
オフラインでステアリングトークンの候補集合を構築し、(i) 短期的な安全確率を最大化し、(ii) 分布シフトを最小化するものをモンテカルロ推定で選択する。
少数ステップ steering を最初の m ステップのみに適用し、ASRが小さな m で改善することを示す（多くの場合 m ≤ 3）。
評価は ASR を主要指標とし、MathVista の推論精度で有用性を評価する。

実験結果

リサーチクエスチョン

RQ1推論時介入だけで再学習なしに、推論チューニングされたMLRMで安全性の回復を達成できるか？
RQ2 安全性の回復は初期の推論ステップ（1–3ステップ）だけのステアリングで達成可能か？
RQ3 SafeThinkは複数のオープンソースMLRMと多様な jailbreak ベンチマークで、攻撃成功率と推論精度の観点からどう機能するか？
RQ4 少数ステップの steering は jailbreak 攻撃下で安全性を向上させつつ、モデルの推論能力を維持するか？

主な発見

SafeThinkは6つのオープンソースMLRMと4つのベンチマークに渡って Jailbreak 攻撃の成功率を30–60%低減する。
具体的な削減例として JailbreakV-28K: LlamaV-o1を63.33%から5.74%へ；Hades: R1-Onevisionを69.07%から5.65%へ。
推論性能は保持され、MathVistaの精度は65.20%から65.00%へと維持される。
安全性の回復は通常、最初の1–3推論ステップで介入することで達成され、ASRは急激に低下し、その後は飽和する。
SafeThinkはベースライン（ZeroThink, LessThink, ZS-SafePath, AdaShield）よりもASR削減において優れており、推論品質を最小限の遅延で維持する。
Steeringは推論能力を劣化させない。MathVistaの結果は、防御なしモデルと比較して推論精度の損失がない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。