[论文解读] The Information Geometry of Softmax: Probing and Steering
本文认为基于 softmax 表示的自然几何是信息几何(Bregman 对偶框架),并引入对偶引导以通过线性探针稳健地引导概念,同时保持离靶分布。给出理论与实验,表明对偶引导在保持语义不变性方面优于欧几里得引导。
This paper concerns the question of how AI systems encode semantic structure into the geometric structure of their representation spaces. The motivating observation of this paper is that the natural geometry of these representation spaces should reflect the way models use representations to produce behavior. We focus on the important special case of representations that define softmax distributions. In this case, we argue that the natural geometry is information geometry. Our focus is on the role of information geometry on semantic encoding and the linear representation hypothesis. As an illustrative application, we develop "dual steering", a method for robustly steering representations to exhibit a particular concept using linear probes. We prove that dual steering optimally modifies the target concept while minimizing changes to off-target concepts. Empirically, we find that dual steering enhances the controllability and stability of concept manipulation.
研究动机与目标
- 需要将语义编码以几何对齐的视角来理解(针对 softmax 基表示)。
- 建立 softmax 诱导的几何是带有丰富原-对结构的 Bregman(对偶平坦)几何。
- 分析原空间与对偶空间中的插值路径,并将其与 KL 散度最小化联系起来。
- 引入对偶引导,作为一种稳健方法在最小化离靶变化的同时修改目标概念。
- 在开源模型(LLMs 与 CLIP)上对比欧几里得引导,经验验证对偶引导。
提出的方法
- 将 softmax 分布之间的 KL 散度表征为由对数归一化函数 A 生成的 Bregman 散度。
- 定义相对于 A 与 A* 的原始坐标和对偶坐标,在表示及其对偶之间建立双射关系。
- 解释原始(e-测地线)与对偶(m-测地线)插值,将二者分别与反向 KL 最小化与前向 KL 最小化联系起来。
- 提出对偶引导:通过对偶空间线性探针增量进行更新,在保持离靶分布不变的同时实现目标概念的转移。
- 给出一个正则化的牛顿法,在对偶空间更新时处理秩亏和约束问题,保持可行性在未嵌出的凸包内。
- 在 Gemma-3-4B 与 MetaCLIP-2 上使用能够跟踪目标概念概率与离靶保持的度量进行评估。

实验结果
研究问题
- RQ1信息几何如何解释 softmax 基模型的表示空间?
- RQ2在语义结果方面,原始插值与对偶插值在(AND 与 OR 行为)上有何差异?
- RQ3相较于欧几里得引导,对偶引导是否能够在最小扰动离靶的前提下修改目标概念?
- RQ4在面对对偶空间约束与潜在秩亏时,如何实际实现对偶引导?
- RQ5对 LLMs 与 CLIP 的实证结果是否支持对偶引导相对于欧几里得引导的理论优势?
主要发现
- 对偶几何(Bregman,具原-对结构)支配 softmax 表示中的语义编码。
- 原始插值倾向于捕捉高概率区域的交集(类似 AND),而对偶插值则产生区域的并集(类似 OR)。
- 对偶引导在保持离靶分布最小变化的同时稳健地移动目标概念,优于欧几里得引导。
- 一个正则化的牛顿法使在 Hessian 的秩亏情况下仍可实用地执行对偶引导,并在未嵌出点的凸包内保持可行性。
- 在 Gemma-3-4B 与 MetaClip-2 上的实证结果显示,对偶引导在跨多项指标保持离靶分布更好,同时提升目标概念概率。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。