QUICK REVIEW

[論文レビュー] AISA: Awakening Intrinsic Safety Awareness in Large Language Models against Jailbreak Attacks

Weiming Song, Xuan Xie|arXiv (Cornell University)|Feb 14, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

AISA は LLM の小さな注意ヘッド集合から intrinsic safety 信号を抽出し、単一の前方伝播でロジット steering を用いて jailbreak プロンプトに対抗する defenses を実装します。モデルパラメータの変更や外部コンポーネントの追加は不要です。

ABSTRACT

Large language models (LLMs) remain vulnerable to jailbreak prompts that elicit harmful or policy-violating outputs, while many existing defenses rely on expensive fine-tuning, intrusive prompt rewriting, or external guardrails that add latency and can degrade helpfulness. We present AISA, a lightweight, single-pass defense that activates safety behaviors already latent inside the model rather than treating safety as an add-on. AISA first localizes intrinsic safety awareness via spatiotemporal analysis and shows that intent-discriminative signals are broadly encoded, with especially strong separability appearing in the scaled dot-product outputs of specific attention heads near the final structural tokens before generation. Using a compact set of automatically selected heads, AISA extracts an interpretable prompt-risk score with minimal overhead, achieving detector-level performance competitive with strong proprietary baselines on small (7B) models. AISA then performs logits-level steering: it modulates the decoding distribution in proportion to the inferred risk, ranging from normal generation for benign prompts to calibrated refusal for high-risk requests -- without changing model parameters, adding auxiliary modules, or requiring multi-pass inference. Extensive experiments spanning 13 datasets, 12 LLMs, and 14 baselines demonstrate that AISA improves robustness and transfer while preserving utility and reducing false refusals, enabling safer deployment even for weakly aligned or intentionally risky model variants.

研究の動機と目的

事前学習済みの LLM 内に intrinsic safety awareness がコード化されており、ファインチューニングなしで防御に活用できるかを調査する。
この安全意識がトランスフォーマー構造内のどこにコード化されているかを局在化する。
intrinsic safety signal に基づくデコードを誘導・減衰させる軽量で単一パスの防御を開発し、有害なプロンプトを検出して抑制する。

提案手法

プロンプト処理中の内部活性化を分析して安全関連信号を識別する。
最も有益な情報を含む最終構造トークン近傍の注意ヘッドを局在化するために時空間プロービングを用いる。
各ヘッドごとに安全スコアを出力するコンパクトな線形プローブを訓練する。
データ駆動のランキングで選択された top-K ヘッドの集合で頑健な安全信号を形成し、それらの出力を平均化する。
安全スコアに基づいてリアルタイムでロジットを調整し、閾値で受動/調整/能動の安全挙動を制御する。
ベースモデルにはパラメータ更新を一切行わず、実行時オーバーヘッドを最小限にする。）

実験結果

リサーチクエスチョン

RQ1外部の安全モジュールを使わずに intrinsic safety awareness を LLM 内に局在化できるか？
RQ2プロンプトの意図検出に最も強い安全信号をコード化する内部コンポーネントはどれか？
RQ3軽量で単一パスのデコーディング介入で、健全なタスク性能を保ちつつ頑健な jailbreak 防御を達成できるか？

主な発見

安全信号はアテンションヘッドの出力から抽出でき、生成直前の最終構造トークン付近で特に有効である。
データ駆動のランキングで選ばれた top-K ヘッドのコンパクトな集合は強力な検出性能を発揮し、強力な独自検出器に匹敵する。
推定された安全スコアに基づくロジット steering は、有害でないプロンプトの性能を劣化させることなく安全性を向上させる。
AISA は 7B モデルで detector レベルの性能を達成し、モデル、アライメント状態、攻撃タイプを横断して一般化する。
プローブ用パラメータは約 0.004M で済み、実行時オーバーヘッドはほとんどなく、単一前方伝播で動作する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。