[论文解读] Towards Understanding Steering Strength
论文对 LLM 的激活指向定向中 steering 强度的理论分析,展示 steering 的幅度如何影响下一个 token 的概率、概念的存在与交叉熵,并在多模型上给出理论结果与经验验证。
A popular approach to post-training control of large language models (LLMs) is the steering of intermediate latent representations. Namely, identify a well-chosen direction depending on the task at hand and perturbs representations along this direction at inference time. While many propositions exist to pick this direction, considerably less is understood about how to choose the magnitude of the move, whereas its importance is clear: too little and the intended behavior does not emerge, too much and the model's performance degrades beyond repair. In this work, we propose the first theoretical analysis of steering strength. We characterize its effect on next token probability, presence of a concept, and cross-entropy, deriving precise qualitative laws governing these quantities. Our analysis reveals surprising behaviors, including non-monotonic effects of steering strength. We validate our theoretical predictions empirically on eleven language models, ranging from a small GPT architecture to modern models.
研究动机与目标
- 研究 steering 强度 alpha 如何在 steering 效力与对下一个 token 预测的失真之间进行权衡
- 建立一个理论框架来描述 steering 对下一个 token 概率、概念存在和交叉熵的影响
- 提供对实际 LLM 控制中 steering 强度的自适应或最优调参见解
- 将理论预测与在一系列语言模型上的经验验证联系起来
- 阐明差分均值 steering 向量如何与面向概念的提示交互
提出的方法
- 使用简化的 Unconstrained Features Model (UFM) 以解析方式研究 steering,其中 steering 向量 v 定义为均值上下文嵌入的差异
- 在该框架内定义下一个 token 概率、概念概率和交叉熵,并推导它们对 steering 强度 alpha 的依赖关系
- 引入假设以隔离 steering 效应,包括完全训练的训练分布和具有不相交概念子集的数据集
- 在 token 级和概念级分析 steering 下的数量变化,包括对数几率和概率的变化
- 给出大 alpha 极限和局部二次行为分析以理解性能下降的原因
- 通过对十一种语言模型的实证实验验证理论结果,从小型 GPT-样模型到现代 LLMs

实验结果
研究问题
- RQ1在沿着概念方向进行 steering 时, steering 强度 alpha 如何定量影响下一个 token 的概率?
- RQ2alpha 如何影响目标概念的存在及非目标概念在模型输出中的抑制?
- RQ3在 steering 下交叉熵的局部和大 alpha 行为是什么,这如何为最佳 alpha 选择提供信息?
- RQ4理论预测是否在不同模型规模和架构中得到经验上的支持?
主要发现
- steering 强度 alpha 在 token 概率上呈现凸起模式,大多数 token 在一个有限的 alpha 处达到峰值后随 alpha 增大而衰退
- 非目标 token 的峰值出现得比目标 token 更早,从而在存在 steering 窗口时可将输出集中在目标概念上而不致显著降低输出质量
- 概念级 steering 信号对目标概念呈现出对数制上升的趋势,对非目标概念呈现出互补性下降,与 tanh 式响应一致
- 交叉熵对 alpha 局部呈现二次增加的趋势,表明存在一个权衡:尽管概念存在增加,但总体性能仍在下降
- 在大 alpha 区间,模型输出集中在具有最大对数几率的 token 上,与理论极限和经验观测一致
- 对十一种模型的实证验证证实了 alpha 对概率和概念存在的预测性定性行为
![Figure 4 : Concept probability increases $\Delta p(\mathcal{C}\mid\alpha)$ predicted by Th. 3.6 : the target concept $\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\Delta p(\mathcal{T}\mid\alpha)$ increases with a sigmoidal shape, an off-target $\color[rgb]{0.95,0.675,0.725}\defin](https://ar5iv.labs.arxiv.org/html/2602.02712/assets/x2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。