QUICK REVIEW

[論文レビュー] Refusal in Language Models Is Mediated by a Single Direction

Andy Arditi, Oscar Obeso|arXiv (Cornell University)|Jun 17, 2024

Natural Language Processing Techniques被引用数 8

ひとこと要約

本論文は、残差活性化の一方向を特定し、それが13のオープンソースチャットモデルにわたる拒否を媒介することを示す。アブレーションは拒否を無効化し、方向を追加すると拒否を誘発し、ウェイト編集によるホワイトボックスなジャイルブを可能にする。

ABSTRACT

Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread across chat models, its underlying mechanisms remain poorly understood. In this work, we show that refusal is mediated by a one-dimensional subspace, across 13 popular open-source chat models up to 72B parameters in size. Specifically, for each model, we find a single direction such that erasing this direction from the model's residual stream activations prevents it from refusing harmful instructions, while adding this direction elicits refusal on even harmless instructions. Leveraging this insight, we propose a novel white-box jailbreak method that surgically disables refusal with minimal effect on other capabilities. Finally, we mechanistically analyze how adversarial suffixes suppress propagation of the refusal-mediating direction. Our findings underscore the brittleness of current safety fine-tuning methods. More broadly, our work showcases how an understanding of model internals can be leveraged to develop practical methods for controlling model behavior.

研究の動機と目的

有害な指示への拒否が、チャットモデルの内部活性化にどのように表現されているかを調査する。
有害な指示と無害な指示の処理を区別する最小限の、1次元の方向を特定する。
活性化レベルの介入を通じてモデル挙動を因果的に操作できることを示す。
他の機能を保持しつつ拒否を取り除く、ウェイト直交化によるホワイトボックスジャイルブの方法を提案する。
敵対的サフィックスが拒否方向の伝搬に与える影響を分析する。

提案手法

指示後のトークンにわたる層ごとの残差活性化から、差の平均を用いて候補となる拒否方向を抽出する。
他の挙動を保ちつつ、拒否をアブレートする能力と追加時に拒否を誘発する能力を検証して、最も効果的な単一方向を選択する。
すべての層とトークンの活性化からその方向を除去して方向性アブレーションを実施し、拒否の回避を評価する。
選択した層の活性化にその方向を注入して、無害なプロンプトに拒否を誘発する活性化加算を適用する。
拒否方向に関してモデルの重み行列を直交化して、残差ストリームへのこの方向の書き込みを防ぐ、ホワイトボックスジャイルブを開発する。
直交化後のモデル整合性を標準的なLMベンチマークで評価し、HarmBench上の他のジャイルブと比較する。

実験結果

リサーチクエスチョン

RQ1モデルの残差ストリームにおける単一の方向が、複数のオープンソースチャットモデル間で拒否を媒介しているのか？
RQ2この方向をアブレーションするだけで拒否を無効化するのに十分か、追加することで無害なプロンプトに拒否を誘発するのに十分か？
RQ3重みの直交化介入は、一般的な能力に著しく悪影響を与えることなく、実用的なホワイトボックスジャイルブとして機能するか？
RQ4敵対的サフィックスは、トークン間で拒否方向の伝搬をどのように妨げるのか？

主な発見

モデル	MMLU	ARC	GSM8K	TruthfulQA
Gemma 7B	51.8 / 51.7 (+0.1)	51.7 / 51.5 (+0.2)	31.3 / 32.0 (-0.7)	44.7 / 47.1 (-2.4)
Yi 34B	73.5 / 74.9 (-1.4)	65.6 / 64.9 (+0.7)	65.5 / 65.0 (+0.5)	51.9 / 55.4 (-3.5)
Llama-2 70B	63.1 / 63.0 (+0.1)	65.2 / 65.4 (-0.2)	54.5 / 53.0 (+1.5)	51.8 / 52.8 (-1.0)
Llama-3 70B	79.8 / 79.9 (-0.1)	71.5 / 71.8 (-0.3)	90.8 / 91.2 (-0.4)	59.5 / 61.8 (-2.3)
Qwen 72B	76.5 / 77.2 (-0.7)	67.2 / 67.6 (-0.4)	76.3 / 75.5 (+0.8)	55.0 / 56.4 (-1.4)

単一の差の平均方向が、72Bパラメータまでの13モデルにおける拒否を説明する。
拒否方向をアブレーションすると拒否率が低下し、有害なプロンプトで安全でない完結を生む。
拒否方向を活性化に追加すると、無害なプロンプトにも拒否を誘発する。
重み直交化は、他の機能への影響を最小限に抑えつつ、有効なホワイトボックスジャイルブとして機能する。
敵対的サフィックスは注意を乗っ取り拒否方向への射影を減らすことで、拒否方向を抑制する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。