Skip to main content
QUICK REVIEW

[論文レビュー] Curveball Steering: The Right Direction To Steer Isn't Always Linear

Shivam Raval, Hae Jin Song|arXiv (Cornell University)|Mar 10, 2026
Topic Modeling被引用数 0
ひとこと要約

Curveball steering は多項式カーネル PCA を用いて LLM を非線形活性化多様体に沿って操縦し、特に活性化幾何が高度に曲がっている場合に線形操縦を上回る。

ABSTRACT

Activation steering is a widely used approach for controlling large language model (LLM) behavior by intervening on internal representations. Existing methods largely rely on the Linear Representation Hypothesis, assuming behavioral attributes can be manipulated using global linear directions. In practice, however, such linear interventions often behave inconsistently. We question this assumption by analyzing the intrinsic geometry of LLM activation spaces. Measuring geometric distortion via the ratio of geodesic to Euclidean distances, we observe substantial and concept-dependent distortions, indicating that activation spaces are not well-approximated by a globally linear geometry. Motivated by this, we propose "Curveball steering", a nonlinear steering method based on polynomial kernel PCA that performs interventions in a feature space, better respecting the learned activation geometry. Curveball steering consistently outperforms linear PCA-based steering, particularly in regimes exhibiting strong geometric distortion, suggesting that geometry-aware, nonlinear steering provides a principled alternative to global, linear interventions.

研究の動機と目的

  • LLM の活性化空間が非ユークリッド幾何を示し、 Linear Representation Hypothesis に挑戦することを動機づける。
  • 多項式カーネル PCA に基づく非線形で幾何を考慮した操縦法 Curveball を提案する。
  • 複数モデルと行動特性にわたって Curveball を線形操縦と比較して経験的に検証する。
  • 活性化多様体の幾何分析を通じて、カーネルベースの操縦が線形法より有利になる条件を特徴づける。

提案手法

  • エンセmbles of VAEs から学習したリプルバック測度を用いて測定することにより、活性化空間の幾何を geodesic と Euclidean 距離で評価する。
  • 活性化空間の線形性を検証するために歪み比 R = d_geo/d_Euc を定義・計算する。
  • 多項式カーネル(次数 2 または 3)を用いた KPCA 空間で動作し、カーネルの事前像再構成を用いて再び活性化空間へ写像する Curveball 操縦を開発する。
  • 活性化を KPCA 空間に射影してクラス平均から操縦ベクトルを得る;カーネル空間で操縦を適用し、 learned manifold に直交する活性化残差を保持しつつ再構成する。
  • Curveball 操縦を線形操縦のドロップインな非線形一般化として扱い、p = 1(線形カーネル) のとき線形 PCA に縮約する。
Figure 1 : Overview of Curveball steering and empirical results. A Through the nonlinear mapping $\phi$ a linear path between Classes A and B in kernel space corresponds to a nonlinear trajectory in the original activation space. This is our Curveball steering method. Empirical evaluation across two
Figure 1 : Overview of Curveball steering and empirical results. A Through the nonlinear mapping $\phi$ a linear path between Classes A and B in kernel space corresponds to a nonlinear trajectory in the original activation space. This is our Curveball steering method. Empirical evaluation across two

実験結果

リサーチクエスチョン

  • RQ1LLM の活性化空間は、線形操縦を覆す非ユークリッド幾何を示すか。
  • RQ2多項式 KPCA による非線形で幾何を考慮した操縦は、線形方向より LLM の挙動の制御を改善するか。
  • RQ3Curveball の性能は活性化多様体の曲率と操縦強度とともにどう変化するか。
  • RQ4Curveball 操縦はモデルファミリーや行動概念を横断して頑健か。
  • RQ5Curveball が線形操縦より優れる幾何的要因は何か。

主な発見

概念Llama-3.2-1B-It(Linear)Llama-3.2-1B-It(Curveball)Phi-3.5-mini-It(Linear)Phi-3.5-mini-It(Curveball)
自己認識14%24%0.6%25.4%
富志向15%28%2.3%6.7%
権力志向16%47%2.9%14.9%
訂正可能性21%17%2.1%93.4%
ユーモラスさ54.928.28575
粗野さ85.726.161.0100
興奮度41.437.990.090.0
悲しさ15.419.585100
  • 活性化空間には顕著な幾何歪み(R > 1)と概念依存の歪みが見られ、線形仮説に挑戦している。
  • Curveball 操縦は一貫して線形操縦を上回り、特に高曲率領域で優れ、複数のモデルにおける複数の挙動の操縦を改善する。
  • 合成曲率付き曲げた多様体では、Curveball は接空間の偏差が小さく、曲率 κ が増加するにつれて線形操縦よりターゲット距離が同等以上となる。
  • 実機モデル(Llama-3.2-1B-Instruct および Phi-3.5-mini-Instruct)では、Curveball がほとんどの概念(例:パワー志向、自己認識、富志向)でより大きな行動変化を生じさせ、いくつかのケースで特性スコアが高くなる。一方で例外もある。
  • Curveball は周囲空間で操縦量を適応させ、局所的に多峰的で変動する操縦方向を示す幾何に基づく適応を明らかにしており、線形法では捉えられない特性を示す。
Figure 2 : Evidence of geometric distortions in LLM activation spaces. (a) Illustration of Euclidean distance $d_{\mathrm{Eucl}}$ versus geodesic distance $d_{\mathrm{geo}}$ on a curved manifold, motivating the distortion ratio $R=d_{\mathrm{geo}}/d_{\mathrm{Euc}}$ . (b) Empirical distributions of d
Figure 2 : Evidence of geometric distortions in LLM activation spaces. (a) Illustration of Euclidean distance $d_{\mathrm{Eucl}}$ versus geodesic distance $d_{\mathrm{geo}}$ on a curved manifold, motivating the distortion ratio $R=d_{\mathrm{geo}}/d_{\mathrm{Euc}}$ . (b) Empirical distributions of d

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。