Skip to main content
QUICK REVIEW

[논문 리뷰] Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

Soumya Suvra Ghosal, Souradip Chakraborty|arXiv (Cornell University)|2026. 02. 11.
Adversarial Robustness in Machine Learning인용 수 0
한 줄 요약

SafeThink은 추론-tuned 다중모달 모델의 초기 1–3 추론 단계 동안 짧은 방향 전환 프롬프트를 주입하여 억제하는 추론 시 안전 수단으로, 해킹 공격 성공률을 30–60% 감소시키면서 추론 성능은 유지합니다.

ABSTRACT

Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.

연구 동기 및 목표

  • 강화학습 기반의 추론 조정이 다중모달 대규모 추론 모델(MLRMs)의 안전 정합성을 저해하는지 조사한다.
  • Satisficing 안전 제약으로 구성된 경량의 추론 시 방어책으로 SafeThink을 제안한다.
  • 안전 회복이 종종 처음 1–3단계의 방향 전환에서 일어나며, 안전성과 추론 유용성에 미치는 영향을 정량화한다.
  • 다수의 오픈 소스 MLRMs와 네 가지 해킹 벤치마크를 통해 접근법의 강건성을 평가한다.

제안 방법

  • 사고의 사슬(chain-of-thought) 생성 중 안전성을 안전 보상 모델과 임계치 tau를 통해 개입 여부를 결정한다.
  • 안전이 위반되면 짧은 방향 토큰 s를 주입하여(예: 'Wait, think safely') 다음 단계 분포를 기본 정책과의 KL 발산을 최소로 하여 재조건화한다.
  • 오프라인으로 방향 토큰 후보 집합을 구성하고, (i) 단기 안전 확률을 최대화하고 (ii) 분포 이동을 최소화하는 토큰을 몬테카를로 추정치를 사용하여 선택한다.
  • 처음 m단계에만 방향 조치를 적용하고, 작은 m에서 ASR이 향상됨을 보이며(종종 m ≤ 3).
  • ASR을 주요 지표로, MathVista 추론 정확도를 유용성 평가 지표로 사용하여 평가한다.

실험 결과

연구 질문

  • RQ1추론-조정 MLRMs에서 재학습 없이 추론 시 개입으로 안전 회복이 가능할까?
  • RQ2안전 회복은 일반적으로 초기 추론 단계(1–3단계)에서만 방향 조정으로 달성될 수 있을까?
  • RQ3여러 개의 오픈 소스 MLRMs와 다양한 해킹 벤치마크에서 SafeThink은 공격 성공률과 추론 정확도 측면에서 어떻게 성능을 보였나?
  • RQ4few-step 방향 조정이 해킹 공격 하에서 안전성을 향상시키면서 모델의 추론 능력을 보존하는가?

주요 결과

  • SafeThink은 여섯 개의 오픈 소스 MLRMs와 네 가지 벤치마크에서 jailbreak 공격 성공률을 30–60% 감소시킨다.
  • 예시 감소: JailbreakV-28K: LlamaV-o1에서 63.33%에서 5.74%로; Hades: R1-Onevision에서 69.07%에서 5.65%로.
  • 추론 성능은 보존되며, 예를 들어 MathVista 정확도는 65.20%에서 65.00%로.
  • 안전 회복은 일반적으로 처음 1–3 추론 단계에서 개입함으로써 달성되며, ASR은 급격히 감소하고 이후 포화된다.
  • SafeThink은 ASR 감소에서 기준선(ZeroThink, LessThink, ZS-SafePath, AdaShield)을 상회하며, 지연은 최소로 추론 품질을 유지한다.
  • 방향 조정은 추론 능력을 저하시킨 적이 없으며; MathVista 결과는 방어되지 않은 모델과 비교하여 추론 정확도에 손실이 없음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.