[论文解读] ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning
ATNPO 使用内在注意力提供逐步监督,缩短推理长度并在多个基准测试中提高准确性,开销最小。
Large reasoning models trained with reinforcement learning and verifiable rewards (RLVR) achieve strong performance on complex reasoning tasks, yet often overthink, generating redundant reasoning without performance gains. Existing trajectory-level length penalties often fail to effectively shorten reasoning length and degrade accuracy, as they uniformly treat all reasoning steps and lack fine-grained signals to distinguish redundancy from necessity. Meanwhile, process-supervised methods are typically resource-intensive and suffer from inaccurate credit assignment. To address these issues, we propose ATTNPO, a low-overhead process-supervised RL framework that leverages the model's intrinsic attention signals for step-level credit assignment. We first identify a set of special attention heads that naturally focus on essential steps while suppressing redundant ones. By leveraging the attention scores of these heads, We then employ two sub-strategies to mitigate overthinking by discouraging redundant steps while preserving accuracy by reducing penalties on essential steps. Experimental results show that ATTNPO substantially reduces reasoning length while significantly improving performance across 9 benchmarks.
研究动机与目标
- 识别注意力头的子集(Key-Focus Heads,KFHs)是否自然聚焦于关键的推理步骤。
- 开发一个低开销的 RL 框架,利用注意力信号进行逐步信用分配。
- 通过削弱冗余步骤来减轻过度推理,同时保留关键推理。
- 在多样化基准测试中证明效率提升(推理更短)且不牺牲准确性。
提出的方法
- 通过探测对关键 vs 冗余步骤的注意力分布来识别 Key-Focus Heads(KFHs)。
- 使用 KFH 注意力分数(Eq. 4)定义对正确回答的逐步优势尺度 A_hat。
- 引入两种策略:Pos-Adv Attenuation(PA)在 A^i > 0 时降低对冗余步骤的信用,以及 Neg-Adv Attenuation(NA)在 A^i < 0 时软化对关键步骤的惩罚。
- 利用问题难度和响应特征计算一个难度感知的基线 S_base^i(Eq. 7)。
- 应用调度机制(Eq. 8)根据步骤冗余和训练进度调节衰减强度。
- 在数学、编程和科学任务上评估 AttnPO,并与结果监督和过程监督基线进行比较。
实验结果
研究问题
- RQ1是否可以利用内在注意力信号(KFHs)在不消耗额外资源的情况下实现细粒度的逐步监督?
- RQ2逐步优势重新缩放是否能在保持或提升准确性的同时提高效率(推理更短)?
- RQ3冗余步骤与关键步骤在各层和注意力头之间如何分布,KFH 行为在带长度惩罚的 RL 下有多鲁棒?
- RQ4AttnPO 对探索和对域外任务泛化的影响如何?
主要发现
- 一小部分注意力头(KFHs)持续聚焦于关键步骤并抑制冗余步骤,在评估的模型中具有高的 Step Ranking Accuracy(SRA)值,最高可达约 0.95–0.96。
- AttnPO 在推理长度上实现显著下降(例如在 1.5B 模型上下降 61%,在 7B 上下降 55%),同时带来准确性提升(如在 1.5B 的六个数学基准上提升 +7.3 点)。
- 在 AIME2024 上,1.5B 模型带来 +9.6 点的准确性提升且长度缩短 54%;在 7B 上,长度缩短 55%且准确性提升 +2.9 点。
- AttnPO 的长度缩减在模型规模上具有鲁棒性,并维持或提升域外性能(LiveCodeBench、GPQA、MMLU)。
- PA 单独显著降低推理长度;增加 NA 进一步通过缓解对关键步骤的过惩罚来提升准确性。
- 使用一个较小的 Top-N 集合(N ≈ 3)的 KFHs 即可;增加更多将带来边际收益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。