[论文解读] Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE
该论文系统地研究变换器中的部分 RoPE,结果显示对大约 10% 的隐藏维度应用 RoPE 在收敛性和最终损失方面与全量 RoPE 相近,同时在长上下文下显著节省内存。
Rotary Positional Embedding (RoPE) is a common choice in transformer architectures for encoding relative positional information. Although earlier work has examined omitting RoPE in specific layers, the effect of varying the fraction of hidden dimensions that receive rotary transformations remains largely unexplored. This design choice can yield substantial memory savings, which becomes especially significant at long context lengths. We find up to 10x memory savings over the standard RoPE cache, while achieving comparable final loss. In this work, we present a systematic study examining the impact of partial RoPE on training dynamics and convergence across architectures and datasets. Our findings uncover several notable patterns: (1) applying RoPE to only a small fraction of dimensions (around 10%) achieves convergence comparable to using full RoPE; (2) these trends hold consistently across model size, sequence lengths and datasets of varying quality and architectures, with higher-quality data resulting in lower overall loss and similar benchmark performance; and (3) some models trained with NoPE (No Positional Encoding) showcase unstable learning trajectories, which can be alleviated through minimal RoPE application or QK-Norm which converges to a higher loss. Together, these results offer practical guidance for model designers aiming to balance efficiency and training stability, while emphasizing the previously overlooked importance of partial RoPE.
研究动机与目标
- 研究受 RoPE 的隐藏维度分数影响对训练动态与收敛性的影响。
- 评估部分 RoPE 在内存效率方面的提升,特别是对长上下文长度。
- 在不同架构、模型规模与数据质量下评估鲁棒性。
- 为设计者在效率与稳定性之间取得平衡提供实际指南。
提出的方法
- 从头开始预训练多种变换器模型,RoPE 分数分别为:0%(NoPE)、10%、25%、50%、75%、100%(全 RoPE)。
- 在序列注意力和并行注意力架构(Llama-3.2/3.1 与 Pythia-1B 风格)上进行测试。
- 在 FineWeb 与 FineWeb-Edu 数据集上使用 100B token 子集及标准 LM 评估基准再加 PubMedQA 进行评估。
- 通过损失轨迹研究训练动态,通过 LM Evaluation Harness 指标和 MCQ 基准评估性能。
- 探讨像 QK-Norm 这样的稳定性技术以缓解 NoPE 配置下可能的损失尖峰。

实验结果
研究问题
- RQ1RQ1:受 RoPE 的隐藏维度分数如何影响模型训练动态与收敛?
- RQ2RQ2:预训练数据质量如何影响最优的部分 RoPE 配置?
- RQ3RQ3:序列长度如何影响部分 RoPE 配置的行为?
- RQ4RQ4:部分 RoPE 的效果在序列与并行变换器块设计中是否一致?
- RQ5RQ5:模型规模如何影响观察到的部分 RoPE 趋势?
- RQ6RQ6:基准评估是否与基于损失的发现一致?
主要发现
- 将 RoPE 应用于仅 10% 的隐藏维度即可获得与全量 RoPE 相近的收敛性和最终损失。
- NoPE 或非常低的 RoPE(如 2 通道约占 4%)会收敛到较高的最终损失。
- 更高质量的预训练数据会提高绝对损失,但在不同配置下保留部分 RoPE 的模式。
- 上述趋势在不同序列长度(1024、4096、8192)以及序列与并行注意力架构之间均成立。
- NoPE 在并行架构中可能导致学习轨迹不稳定或损失尖峰,可通过 QK-Norm 或部分 RoPE 来缓解。
- 基准结果在很大程度上与基于损失的分析一致,在 9/10 个 MCQ 任务中 RoPE 变体几乎无差异;当转向 10% 及以上 RoPE 时困惑度有所提升。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。