[论文解读] Spherical Steering: Geometry-Aware Activation Rotation for Language Models
一个无需额外训练的激活引导方法,通过基于 vMF 的置信门将隐藏激活在超球面上朝向真实性方向旋转,以在不损害表征大小的前提下提升多项选择准确性与开放式生成能力。
Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.
研究动机与目标
- 推动在不需再训练的情况下对语言模型进行推理时控制。
- 解决加性激活引导改变激活模量的缺点。
- 提出一种保持范数、沿测地线的旋转方法,以将表示朝向真实概念进行引导。
- 结合置信门基于输入不确定性自适应应用引导。
- 在多项基准上展示无需训练的state-of-the-art 性能,同时保持生成质量。
提出的方法
- 从正负样本激活中构建对比原型方向 μ,以定义真实性轴线。
- 沿着测地线将激活 h 旋转朝向 μ(通过球面线性内插),同时保持激活模量(保持范数)。
- 对激活进行归一化以计算方向,并应用基于 Slerp 的旋转朝向真实方向 μ_T;旋转后恢复原始幅度。
- 使用 von Mises–Fisher (vMF) 基于置信门从当前激活方向计算引导强度 t,使输入自适应干预成为可能。
- 在选定的层和解码步中应用引导,以实现不重新训练的推理时控制,从而影响生成。
实验结果
研究问题
- RQ1几何感知、保持范数的旋转是否在语言模型控制任务中优于加性激活引导?
- RQ2基于置信门的测地线旋转是否在多种语言模型家族中同时提升多项选择准确性和开放式生成质量?
- RQ3激活方向(而非幅度)是否是真实性信号的主要载体,从而证明超球面引导的合理性?
- RQ4多层引导如何影响准确性和生成质量,哪些层策略最优?
- RQ5球形引导与上下文学习及其他提示技巧的协同效果如何?
主要发现
- 球形引导在 LLaMA-3.1-8B-Instruct 的平均多项选择准确性上比最佳加性基线提升至多 +11.09%,在 Qwen-2.5-7B-Instruct 上提升至 +5.31%。
- 该方法实现帕累托改进,在提升 TRUE × INFO 分数的同时也提升生成质量,与导致生成下降的加性方法不同。
- 保持范数的旋转在收敛效率方面高于加性编辑,在相似水平的表示降解下取得更大准确性提升。
- 基于 vMF 的置信门实现输入自适应引导,在较高的引导强度下仍能保持生成质量。
- 多层引导在提高生成信息性(INFO)方面收益更大,准确性提升有限且在几层之后收益递减。
- 球形引导与少量上下文学习(few-shot in-context learning)互为补充,在不干扰生成内容的前提下为 ICL 提供显著收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。