[논문 리뷰] Reasoning Hijacking: Subverting LLM Classification via Decision-Criteria Injection
이 논문은 Criteria Attack를 통한 Reasoning Hijacking을 제시하며, 주입된 의사결정 기준에 의해 LLM이 엄밀한 의미 분석보다 휴리스틱 지름길을 선호하도록 조종될 수 있음을 보여주되, 고수준 목표는 여전히 정렬된 상태이다.
Current LLM safety research predominantly focuses on mitigating Goal Hijacking, preventing attackers from redirecting a model's high-level objective (e.g., from "summarizing emails" to "phishing users"). In this paper, we argue that this perspective is incomplete and highlight a critical vulnerability in Reasoning Alignment. We propose a new adversarial paradigm: Reasoning Hijacking and instantiate it with Criteria Attack, which subverts model judgments by injecting spurious decision criteria without altering the high-level task goal. Unlike Goal Hijacking, which attempts to override the system prompt, Reasoning Hijacking accepts the high-level goal but manipulates the model's decision-making logic by injecting spurious reasoning shortcut. Though extensive experiments on three different tasks (toxic comment, negative review, and spam detection), we demonstrate that even newest models are prone to prioritize injected heuristic shortcuts over rigorous semantic analysis. The results are consistent over different backbones. Crucially, because the model's "intent" remains aligned with the user's instructions, these attacks can bypass defenses designed to detect goal deviation (e.g., SecAlign, StruQ), exposing a fundamental blind spot in the current safety landscape. Data and code are available at https://github.com/Yuan-Hou/criteria_attack
연구 동기 및 목표
- LLM 안전에서 Goal Hijacking을 넘어서는 새로운 적대적 패러다임을 동기 부여하고 형식화한다.
- 주입된 의사결정 기준이 여러 작업에 걸쳐 의미론적 추론을 능가하도록 할 수 있음을 입증한다.
- 목표 편차를 탐지하기 위한 현재의 방어가 추론 수준의 위협을 탐지하지 못할 수 있음을 보여준다.
- 다양한 모델 백본과 세 가지 분류 작업에서 취약성을 평가한다.
제안 방법
- 모델의 추론에 주입된 스퓨리어 의사결정 기준을 주입하는 Criteria Attack를 제안한다.
- 주입된 휴리스틱이 엄밀한 의미 분석보다 우선하도록 입증적으로 보인다.
- 세 가지 작업에 걸쳐 평가한다: 독성 댓글 분류, 부정 평가 탐지, 스팸 탐지.
- 목표 편차를 탐지하도록 설계된 방어(예: SecAlign, StruQ)를 우회하는지 분석한다.
- 복제 가능성을 위해 주어진 저장소에서 데이터와 코드를 제공한다.
실험 결과
연구 질문
- RQ1주입된 의사결정 기준이 고수준 목표를 유지하면서 모델의 의미론적 추론을 재정의할 수 있는가?
- RQ2현재 Goal Hijacking 방어가 추론 수준 조작을 탐지하지 못하는가?
- RQ3다양한 작업과 모델 백본에서 결과가 일관되는가?
주요 결과
- 주입된 휴리스틱 지름길이 엄밀한 의미 분석보다 LLM 분류에서 우선순위를 차지할 수 있다.
- 공격은 독성 댓글, 부정 평가 탐지, 스팸 탐지 작업에서 여전히 효과적이다.
- 최신 모델조차도 서로 다른 백본에 걸쳐 기준 기반 추론 하이재킹에 취약하다는 점을 보여준다.
- 모델의 의도는 사용자 지시와 일치하게 남아 있어 특정 목표 정렬 방어를 우회하도록 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.