QUICK REVIEW

[논문 리뷰] Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

Soumya Suvra Ghosal, Souradip Chakraborty|arXiv (Cornell University)|2026. 02. 11.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

SafeThink은 추론-tuned 다중모달 모델의 초기 1–3 추론 단계 동안 짧은 방향 전환 프롬프트를 주입하여 억제하는 추론 시 안전 수단으로, 해킹 공격 성공률을 30–60% 감소시키면서 추론 성능은 유지합니다.

ABSTRACT

Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.

연구 동기 및 목표

강화학습 기반의 추론 조정이 다중모달 대규모 추론 모델(MLRMs)의 안전 정합성을 저해하는지 조사한다.
Satisficing 안전 제약으로 구성된 경량의 추론 시 방어책으로 SafeThink을 제안한다.
안전 회복이 종종 처음 1–3단계의 방향 전환에서 일어나며, 안전성과 추론 유용성에 미치는 영향을 정량화한다.
다수의 오픈 소스 MLRMs와 네 가지 해킹 벤치마크를 통해 접근법의 강건성을 평가한다.

제안 방법

사고의 사슬(chain-of-thought) 생성 중 안전성을 안전 보상 모델과 임계치 tau를 통해 개입 여부를 결정한다.
안전이 위반되면 짧은 방향 토큰 s를 주입하여(예: 'Wait, think safely') 다음 단계 분포를 기본 정책과의 KL 발산을 최소로 하여 재조건화한다.
오프라인으로 방향 토큰 후보 집합을 구성하고, (i) 단기 안전 확률을 최대화하고 (ii) 분포 이동을 최소화하는 토큰을 몬테카를로 추정치를 사용하여 선택한다.
처음 m단계에만 방향 조치를 적용하고, 작은 m에서 ASR이 향상됨을 보이며(종종 m ≤ 3).
ASR을 주요 지표로, MathVista 추론 정확도를 유용성 평가 지표로 사용하여 평가한다.

실험 결과

연구 질문

RQ1추론-조정 MLRMs에서 재학습 없이 추론 시 개입으로 안전 회복이 가능할까?
RQ2안전 회복은 일반적으로 초기 추론 단계(1–3단계)에서만 방향 조정으로 달성될 수 있을까?
RQ3여러 개의 오픈 소스 MLRMs와 다양한 해킹 벤치마크에서 SafeThink은 공격 성공률과 추론 정확도 측면에서 어떻게 성능을 보였나?
RQ4few-step 방향 조정이 해킹 공격 하에서 안전성을 향상시키면서 모델의 추론 능력을 보존하는가?

주요 결과

SafeThink은 여섯 개의 오픈 소스 MLRMs와 네 가지 벤치마크에서 jailbreak 공격 성공률을 30–60% 감소시킨다.
예시 감소: JailbreakV-28K: LlamaV-o1에서 63.33%에서 5.74%로; Hades: R1-Onevision에서 69.07%에서 5.65%로.
추론 성능은 보존되며, 예를 들어 MathVista 정확도는 65.20%에서 65.00%로.
안전 회복은 일반적으로 처음 1–3 추론 단계에서 개입함으로써 달성되며, ASR은 급격히 감소하고 이후 포화된다.
SafeThink은 ASR 감소에서 기준선(ZeroThink, LessThink, ZS-SafePath, AdaShield)을 상회하며, 지연은 최소로 추론 품질을 유지한다.
방향 조정은 추론 능력을 저하시킨 적이 없으며; MathVista 결과는 방어되지 않은 모델과 비교하여 추론 정확도에 손실이 없음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.