Skip to main content
QUICK REVIEW

[論文レビュー] Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

Minjae Kang, Jaehyung Kim|arXiv (Cornell University)|Mar 6, 2026
Text Readability and Simplification被引用数 0
ひとこと要約

DirectorはKVキャッシュのステアリングを plausibility-guided decoding loop で動的に制御し、各ステップでステアリング強度を適応させることで、指示遵守を改善しつつテキスト品質を損なわず、従来のステアリング手法を上回る。

ABSTRACT

Large Language Models (LLMs), despite advances in instruction tuning, often fail to follow complex user instructions. Activation steering techniques aim to mitigate this by manipulating model internals, but have a potential risk of oversteering, where excessive emphasis on the instruction degrades task accuracy and overall text quality. To address this, we introduce DIRECTER (Dynamic rejection steering), a novel steering method that dynamically modulates steering strength by scaling the KV cache without extra dataset. DIRECTER couples steering with a plausibility-guided decoding loop, which adaptively adjusts steering strength at each step by comparing the steered output distribution to the original. If the steered output is deemed implausible, steering strength is progressively weakened. This strength modulation is guided by a lightweight, one-time attention sensitivity analysis that ranks layers by their influence on model representations. Extensive evaluations show that DIRECTER significantly enhances instruction-following capabilities across diverse benchmarks, improving accuracy by up to 6.5% over baselines without the common trade-offs in generation quality or task fidelity. The proposed dynamic, plausibility-guided control during activation steering further demonstrates its potential as a general mechanism for mitigating oversteering that is compatible with existing baselines.

研究の動機と目的

  • 静的・事前調整ベースのアプローチを超える指示遵守の改善を促進する。
  • デコード時にステアリング強度を動的に調整して過度なステアリングのリスクを緩和する。
  • ステアリングに影響を与える層を選択する lightweight なレイヤーランキング機構を特定する。
  • 多様なモデルとベンチマークで互換性と利得を示す。

提案手法

  • KVキャッシュのスケーリングを介して選択層に対するアテンションの影響を調整する。
  • plausibility-guided decoding により、実データ分布と比較して妥当性を保つ出力のみを受け入れる。
  • 一度限りのアテンション感度分析で表現に対する影響度で層をランク付けする。
  • plausibility基準が満たされない場合、候補となる steered 層の集合を徐々に半分にしてステアリング強度を適応的に削減する。
  • 上位2トークンの確率が改善の見込みを示さない場合にステアリングをスキップする効率的ゲートを導入する。
  • 固定ステアリングと適応ステアリングを比較し、層ランキングの有効性を評価するアブレーション主導の分析。
Figure 1: An overview of Directer ’s plausibility-guided decoding loop. At each step, a steered output distribution ( $\tilde{p}_{t}$ ) from KV cache scaling is compared against the raw output distribution ( $p_{t}$ ). (a) Steering Failure: If the steered candidate is deemed implausible, it is rejec
Figure 1: An overview of Directer ’s plausibility-guided decoding loop. At each step, a steered output distribution ( $\tilde{p}_{t}$ ) from KV cache scaling is compared against the raw output distribution ( $p_{t}$ ). (a) Steering Failure: If the steered candidate is deemed implausible, it is rejec

実験結果

リサーチクエスチョン

  • RQ1Directerは多様なベンチマークで指示遵守を改善するか。
  • RQ2Directerは異なるモデルアーキテクチャやスケールへ一般化するか。
  • RQ3 plausibility-guided gatingは他のステアリング手法にも過度なステアリングを緩和できるか。
  • RQ4アテンション感度に基づく層ランキングはステアリング層の選択に有効か。
  • RQ5推論時のDirecterの効率性(待ち時間とメモリ)への影響はどの程度か。

主な発見

  • Directerは複数のベンチマークで一貫してベースラインを上回り、ゼロショット時の平均正確度を最大6.5%向上、従来のステアリング手法を約4%上回る。
  • DirecterはLLM審査評価で最大のタスク忠実度 (~92%) を達成し、生成品質は介入なしのベースラインと同等を維持。
  • 推論オーバーヘッドは控えめで、スループットはゼロショットより約16%低下、トークンごとのデコード時間は約20%程度の増加、追加メモリ使用はごくわずか。
  • Plausibility-guided decoding loopはステアリングを安全にゲートし、品質を維持しつつ他のステアリング手法を部分的に改善(例:ablationでのPASTA/SpotLightの過度なステアリング緩和)できる。
  • 層ランキングはアテンション感度に基づくことが重要:ランキングを逆転させる、またはランダムな層/トークン選択を用いると性能が低下し、提案されたランキング戦略の有効性を裏付ける。
(a) Fixed-strength ablation
(a) Fixed-strength ablation

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。