[論文レビュー] Spherical Steering: Geometry-Aware Activation Rotation for Language Models
訓練不要のアクティベーション・ステアリング手法で、隠れ層の活性化を超球面上で真実性方向へ回転させ、vMFベースの信頼ゲートを用いて、表現量を損なうことなく多肢選択の正確性と開放的生成の両方を改善します。
Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.
研究の動機と目的
- 推論時のLM制御を再訓練なしで実現する動機付け。
- activationマグニチュードを変化させる加法的アクティベーション・ステアリングの欠点を解決する。
- ノルムを保持しつつ測地線上で表現を真実性の概念へ向けて回転させる手法を提案する。
- 入力の不確実性に基づいて適応的にステアリングを適用するための信頼ゲートを組み込む。
- 訓練なしでの最先端パフォーマンスを複数のベンチマークで示しつつ、生成品質を維持する。
提案手法
- 正/負の例の活性化から対比的なプロトタイプ方向 μ を構築し、真実性軸を定義する。
- 単射球面上の基底を用いて、測地線に沿って h を μ の方向へ回転させ、活性化の大きさを保存する(ノルム保持)。
- 活性化を正規化して方向を計算し、Slerp ベースの回転を真実方向 μ_T に適用する;回転後に元の大きさを復元する。
- von Mises–Fisher (vMF) ベースの信頼ゲートを用いて現在の活性化方向からステアリング強度 t を計算し、入力に対して適応的な介入を可能にする。
- 訓練を再実行することなく、選択された層とデコーディング段階でステアリングを適用し、推論時制御を実現する。
実験結果
リサーチクエスチョン
- RQ1幾何的配慮とノルム保持の回転は、LM制御タスクにおける加法的アクティベーション・ステアリングを上回るのか?
- RQ2信頼ゲート付きの測地線回転は、LMファミリ全体で多肢選択の正確性とオープンエンド生成品質を改善するのか?
- RQ3活性化方向(大きさではなく方向)が真実性信号の主要な伝達子であり、 hyperspherical steering を正当化するのか?
- RQ4複数層でのステアリングは正確性と生成品質にどう影響するのか、最適な層戦略は何か?
- RQ5Spherical Steering は文脈内学習やその他のプロンプティング手法をどの程度補完するのか?
主な発見
- 球面ステアリングは、LLaMA-3.1-8B-Instruct での平均MC正解率を最大で +11.09%、Qwen-2.5-7B-Instruct で +5.31%向上させ、最良の加法ベースラインを上回る。
- 本手法はパレート最適化の改善を達成し、生成品質を損なうことなく TRUE × INFO のスコアを向上させるのに対し、加法的手法は生成を低下させる。
- ノルム保持の回転は、同等程度の表現劣化でより高い崩壊効率を達成し、類似の状況でより大きな正確性向上を提供する。
- vMF ベースの信頼ゲートは入力適応的なステアリングを可能にし、より高いステアリング強度でも生成品質を維持する。
- 複数層ステアリングは生成情報量(INFO)でより大きな利得を生み出し、MC正解率の利得は穏やかで、数層を超えると収穫は減少する。
- Spherical Steering は few-shot の文脈内学習を補完し、ICL の上に大きな利得を提供しつつ生成内容を乱さない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。