[論文レビュー] Reasoning Hijacking: Subverting LLM Classification via Decision-Criteria Injection
論文は Reasoning Hijacking via Criteria Attack を提案し、 injected decision criteria により LLM が厳密な意味解析よりもヒューリスティックな回避策を優先するよう誘導可能であり、高レベルの目標が整合している場合でもこの現象が生じることを示す。
Current LLM safety research predominantly focuses on mitigating Goal Hijacking, preventing attackers from redirecting a model's high-level objective (e.g., from "summarizing emails" to "phishing users"). In this paper, we argue that this perspective is incomplete and highlight a critical vulnerability in Reasoning Alignment. We propose a new adversarial paradigm: Reasoning Hijacking and instantiate it with Criteria Attack, which subverts model judgments by injecting spurious decision criteria without altering the high-level task goal. Unlike Goal Hijacking, which attempts to override the system prompt, Reasoning Hijacking accepts the high-level goal but manipulates the model's decision-making logic by injecting spurious reasoning shortcut. Though extensive experiments on three different tasks (toxic comment, negative review, and spam detection), we demonstrate that even newest models are prone to prioritize injected heuristic shortcuts over rigorous semantic analysis. The results are consistent over different backbones. Crucially, because the model's "intent" remains aligned with the user's instructions, these attacks can bypass defenses designed to detect goal deviation (e.g., SecAlign, StruQ), exposing a fundamental blind spot in the current safety landscape. Data and code are available at https://github.com/Yuan-Hou/criteria_attack
研究の動機と目的
- LLM 安全性における Goal Hijacking を超える新しい対戦パラダイムを動機づけ・形式化する。
- injected decision criteria が複数のタスクで意味的推論を上書きできることを示す。
- Goal deviation を狙う現在の防御が推論レベルの脅威を検出できない可能性を示す。
- 異なるモデル・バックボーンと三つの分類タスクにおける脆弱性を評価する。
提案手法
- Criteria Attack を提案し、モデルの推論に spurio us な意思決定基準を注入する。
- 注入されたヒューリスティクスが厳密な意味分析を支配することを実験的に示す。
- 三つのタスク(有害コメント分類、ネガティブレビュー検出、スパム検出)を横断して評価する。
- 攻撃が Goal deviation を検出する防御(例:SecAlign、StruQ)を回避するか検証する。
- 再現性のためのデータとコードを所定のリポジトリで提供する。
実験結果
リサーチクエスチョン
- RQ1 injected decision criteria はモデルの意味論的推論を超えることができるか、高レベルの目標を維持しつつ?
- RQ2現在の Goal Hijacking 防御は推論レベルの操作を検出できないのでは?
- RQ3複数のタスクと複数のバックボーンで所見は一貫しているか?
主な発見
- Injected heuristic shortcuts は LLM の分類において厳密な意味分析より優先され得る。
- 攻撃は有害コメント、ネガティブレビュー、スパム検出のいずれのタスクでも有効性を維持する。
- 最新モデルでもバックボーンを問わず criteria-based reasoning hijacking に脆弱であることが示される。
- モデルの意図はユーザー指示と整合しており、特定の目標整合性防御を回避することを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。