[論文レビュー] The Information Geometry of Softmax: Probing and Steering
この論文は、softmax ベースの表現の自然幾何が情報幾何学(ブレグマン-duality フレームワーク)であると主張し、概念を線形プローブで頑健に操る双方向の steering(dual steering)を導入して、オフターゲット分布を保持しつつ概念を導く方法を提案する。理論と実験により、双方向 steering はセマンティック不変性の維持においてユークリッド steering より優れていることを示す。
This paper concerns the question of how AI systems encode semantic structure into the geometric structure of their representation spaces. The motivating observation of this paper is that the natural geometry of these representation spaces should reflect the way models use representations to produce behavior. We focus on the important special case of representations that define softmax distributions. In this case, we argue that the natural geometry is information geometry. Our focus is on the role of information geometry on semantic encoding and the linear representation hypothesis. As an illustrative application, we develop "dual steering", a method for robustly steering representations to exhibit a particular concept using linear probes. We prove that dual steering optimally modifies the target concept while minimizing changes to off-target concepts. Empirically, we find that dual steering enhances the controllability and stability of concept manipulation.
研究の動機と目的
- softmax ベースの表現に対する意味表現の幾何学に基づく見方の必要性を動機づける。
- softmax によって誘発される幾何学がブレグマン(dually flat)幾何学であり、豊かな primal-dual 構造を持つことを確立する。
- primal 空間と dual 空間の補間経路を分析し、それを KL 発散の最小化と結びつける。
- 双方向 steering を、オフターゲットの変更を最小化しつつ対象概念を頑健に修正する手法として導入する。
- open-source モデル(LLMs および CLIP)を対象に、Euclidean steering と比較して双方向 steering の有効性を経験的に検証する。
提案手法
- softmax 分布間の KL 発散を、対数正規化項 A によって生成されるブレグマン発散として特徴づける。
- A および A* に対する primal および dual 座標を定義し、表現とその dual の間に全単射を確立する。
- primal(e-geodesic)と dual(m-geodesic)補間を説明し、それらを逆 KL 発散と順方向 KL 発散の最小化と結びつける。
- 双方向 steering を提案:dual 空間の線形プローブ増分によって更新し、ターゲット概念のシフトを確保しつつオフターゲット分布を保持する。
- dual 空間での更新時に起こり得るランク欠損や制約問題を扱うため、正則化ニュートン法を提供する。
- Gemma-3-4B および MetaCLIP-2 で、ターゲット概念の確率とオフターゲット保持を追跡する指標を用いて steering を評価する。

実験結果
リサーチクエスチョン
- RQ1情報幾何学は softmax ベースのモデルの表現空間をどのように解釈するか。
- RQ2 primal 補間と dual 補間の意味的結果はどのように異なる(AND 的か OR 的か)。
- RQ3 双方向 steering は Euclidean steering に比べてオフターゲット概念を最小に攪乱しつつターゲット概念を修正できるか。
- RQ4 dual 空間の制約と潜在するランク欠損を考慮して、現実的に双方向 steering をどう実装するか。
- RQ5 LLMs と CLIP における経験的結果は、双方向 steering の Euclidean steering に対する理論的利点を支持するか。
主な発見
- 双方向幾何学(ブレグマン、 primal-dual 構造を伴う)が softmax 表現の意味的エンコードを支配している。
- primal 補間は高確率領域の交差点(AND 的)を捉えやすく、dual 補間は領域の和集合(OR 的)を生み出す。
- 双方向 steering はオフターゲット分布への影響を最小限に抑えつつターゲット概念を頑健にシフトし、Euclidean steering よりも優れている。
- Hessian のランク欠損を正則化ニュートン法で対処することで、実用的な双方向 steering が可能となり、未埋め込みの凸包内で実現可能性を維持する。
- Gemma-3-4B および MetaClip-2 の経験的結果は、双方向 steering が指標間でオフターゲット分布をより良く保持しつつターゲット概念の確率を高めることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。