Skip to main content
QUICK REVIEW

[論文レビュー] From Refusal Tokens to Refusal Control: Discovering and Steering Category-Specific Refusal Directions

Rishab Alagharu, Ishneet Sukhvinder Singh|arXiv (Cornell University)|Mar 9, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

論文はカテゴリ別の拒否トークンがLlamaベースのモデルを分離可能なカテゴリに整列した残差ストリーム方向へ微調整し、推論時の steering により benign な過剰拒否を減らし、有害拒否を増やすことを示す。カテゴリ steering ベクトルと学習可能な低秩組み合わせを用い、同様のアーキテクチャ間で転移可能である。

ABSTRACT

Language models are commonly fine-tuned for safety alignment to refuse harmful prompts. One approach fine-tunes them to generate categorical refusal tokens that distinguish different refusal types before responding. In this work, we leverage a version of Llama 3 8B fine-tuned with these categorical refusal tokens to enable inference-time control over fine-grained refusal behavior, improving both safety and reliability. We show that refusal token fine-tuning induces separable, category-aligned directions in the residual stream, which we extract and use to construct categorical steering vectors with a lightweight probe that determines whether to steer toward or away from refusal during inference. In addition, we introduce a learned low-rank combination that mixes these category directions in a whitened, orthonormal steering basis, resulting in a single controllable intervention under activation-space anisotropy, and show that this intervention is transferable across same-architecture model variants without additional training. Across benchmarks, both categorical steering vectors and the low-rank combination consistently reduce over-refusals on benign prompts while increasing refusal rates on harmful prompts, highlighting their utility for multi-category refusal control.

研究の動機と目的

  • 二項の拒否/許可を超える多カテゴリ拒否の問題を動機づけ formalize する。
  • カテゴリ別の拒否トークンが拒否カテゴリに整列した分離可能な残差ストリーム方向を誘導することを示す。
  • 推論時のメカニズム(カテゴリ steering ベクトルと低秩組み合わせ)を開発し、拒否行動を制御する。
  • 再訓練なしで同一アーキテクチャのモデル間で学習介入の転移可能性を示す。
  • 安全性と実用性のトレードオフを評価し、 steering介入のオープンソースツールを提供する。

提案手法

  • 拒否カテゴリまたは respond トークンを付与してプロンプトを処理した後の各トランスフォーマ層での残差ストリームの活性化を抽出する。
  • 各カテゴリごとに有害・ benign 平均活性を計算し、閾値処理を適用して、カテゴリの平均と benign 平均の差として raw 方向ベクトルを形成する。
  • これらのカテゴリ方向をスパース化・正規化して層ごとの steering ベクトルを得る。
  • 最適な層 l* を、カテゴリの分離と yardstick パフォーマンスに基づいて選択し、推論時に強度 alpha で steering ベクトルを適用する。
  • 推論時の steering 決定のために residual 活性を用いた軽量線形プローブを学習し、プロンプトを benign か harmful に分類する。
  • whitening (ZCA) による低秩組み合わせと方向の直交化を経て、 steering を一つの s に結合する低秩演算子を学習し、harmful/benign 共同損失で最適化する。

実験結果

リサーチクエスチョン

  • RQ1カテゴリ拒否トークンは LLM の residual stream において separable、カテゴリ整列した活性方向を誘導できるか?
  • RQ2カテゴリ固有の steering ベクトルを抽出・利用して推論時に拒否行動を制御できるか?
  • RQ3低秩・ whitening・直交化を組み合わせたカテゴリ方向の転移可能性は多カテゴリ拒否制御を改善し、類似モデル間で転移できるか?
  • RQ4推論時 steering が安全性(有害プロンプトでの拒否率)と使いやすさ( benign な過剰拒否)に与える影響は、さまざまなベンチマークでどうなるか?

主な発見

  • カテゴリ steering ベクトルは Refuse-Llama において benign な過剰拒否を平均で 13.70% 減少させ、有害拒否を平均で 14.17% 増加させる。
  • 学習された低秩組み合わせは benign な過剰拒否を平均で 8.93% 減少させ、有害拒否を 12.86% 増加させる一方で一般的能力を保持する。
  • 単一の最適層(layer 18)が有害カテゴリの分離と steering の効果を最もよく得られる。
  • 低秩介入を Llama 3 8B Instruct および DeepSeek R1 Distill Llama に転送すると、有益だが完全なゼロショット転移には至らず、効果の大きさはモデルで異なる。
  • このアプローチは標準ベンチマークでの一般的なモデル性能を維持し、Refuse-Llama と比較してほとんど劣化しない。
  • Refuse-Llama のカテゴリ方向と base Llama 3 8B Base とのコサイン類似度は低く、拒否特有の特徴が拒否トークン微調整から生じることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。