Skip to main content
QUICK REVIEW

[論文レビュー] FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering

Zikang Ding, Qiying Hu|arXiv (Cornell University)|Mar 18, 2026
Topic Modeling被引用数 0
ひとこと要約

FaithSteer-BENCHは、制御性、性能の保持、堅牢性を横断して、固定運用点での推論時ステアリングを評価する展開指向のベンチマークを導入し、信頼性のギャップと機構レベルの洞察を明らかにする。

ABSTRACT

Inference-time steering is widely regarded as a lightweight and parameter-free mechanism for controlling large language model (LLM) behavior, and prior work has often suggested that simple activation-level interventions can reliably induce targeted behavioral changes. However, such conclusions are typically drawn under relatively relaxed evaluation settings that overlook deployment constraints, capability trade-offs, and real-world robustness. We therefore introduce extbf{FaithSteer-BENCH}, a stress-testing benchmark that evaluates steering methods at a fixed deployment-style operating point through three gate-wise criteria: controllability, utility preservation, and robustness. Across multiple models and representative steering approaches, we uncover several systematic failure modes that are largely obscured under standard evaluation, including illusory controllability, measurable cognitive tax on unrelated capabilities, and substantial brittleness under mild instruction-level perturbations, role prompts, encoding transformations, and data scarcity. Gate-wise benchmark results show that existing methods do not necessarily provide reliable controllability in deployment-oriented practical settings. In addition, mechanism-level diagnostics indicate that many steering methods induce prompt-conditional alignment rather than stable latent directional shifts, further explaining their fragility under stress. FaithSteer-BENCH therefore provides a unified benchmark and a clearer analytical lens for future method design, reliability evaluation, and deployment-oriented research in steering.

研究の動機と目的

  • クリーンな制御性を超えた展開志向の推論時ステアリング評価を動機づける。
  • 現実世界の制約におけるステアリング信頼性を評価する標準化された固定点プロトコルを定義する。
  • 共通の運用点で、制御性、性能保持、堅牢性をストレス下で共同評価する。

提案手法

  • 固定のステアリング層とベクトルを備えた共通の加法的介入インターフェースを提案する;キャリブレーション点で単一のスカラー乗数alphaの関数として性能を研究する。
  • 展開指向の評決を生み出す三門評価プロトコル(Controllability、Utility preservation、Robustness)を導入する。
  • ストレスには再調整せず、複数データセットにわたる総合的なクリーン制御性を最大化するようheld-outデータ上でalpha*をキャリブレーションする。
  • 構造化された摂動下での堅牢性を検証するためのストレス分類(Red-Teaming、OOD、Hybrid)を定義する。
  • benchmarkの verdict に影響を与えず、成功と失敗を解釈するための機構レベルの診断(alignment、FOS、LDC)を提供する。
Figure 1: Steering evaluation landscape and the deployment-reliability gap addressed by FaithSteer-BENCH.
Figure 1: Steering evaluation landscape and the deployment-reliability gap addressed by FaithSteer-BENCH.

実験結果

リサーチクエスチョン

  • RQ1さまざまなモデルとステアリング手法を横断して、単一の固定展開点で推論時ステアリングはどれくらい信頼できるか?
  • RQ2クリーンデータで制御性を向上させるステアリング手法は、展開指向のストレス下で性能を維持し、ユーザーの能力を保持するか?
  • RQ3現実的なプロンプト・入力摂動の下での推論時ステアリングの一般的な失敗モードは何か?
  • RQ4ストレス下でアライメント信号は安定した潜在的制御方向とどの程度一致するか?

主な発見

  • 方法とモデルによってクリーン制御性は大きく異なり、いくつかの手法は特定のモデル-タスクの組み合わせでのみ顕著な利得を示し、他は低パフォーマンスまたは不安定。
  • ステアリングはしばしば能力コストを伴う;いくつかの手法は性能を保持する一方で、外部ベンチマーク(RACE、MMLU、OBQA、GLUE)を低下させる。
  • ストレス耐性は多くの手法で乏しく;Base64ベースの摂動は一貫して性能を低下させ、いくつかの役割/テンプレート摂動はモデル固有のばらつきを示す。
  • 機構レベルの診断は、方向性の整合性が堅牢性を保証しないことを示す;一貫した潜在シフトがストレス下で挙動上の失敗を招くことがある。
  • FaithSteer-BENCHは展開信頼性の高いステアリングは希であることを強調し、クリーンデータでの利得が展開信頼性を保証しない。
  • ベンチマークは統一的なフレームワークと運用 verdict を提供し、制御性、性能保持、ストレス保持をゲートベースのプロファイルに統合する。)
Figure 2: Overview of FaithSteer-BENCH . Steering methods are evaluated through three stages: clean controllability, capability preservation, and robustness under stress. The results are then converted into gate-wise deployment verdicts.
Figure 2: Overview of FaithSteer-BENCH . Steering methods are evaluated through three stages: clean controllability, capability preservation, and robustness under stress. The results are then converted into gate-wise deployment verdicts.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。