Skip to main content
QUICK REVIEW

[论文解读] Beyond Correctness: Learning Robust Reasoning via Transfer

Hyunseok Lee, Soheil Abbasloo|arXiv (Cornell University)|Feb 9, 2026
Topic Modeling被引用 0
一句话总结

RLTR 在 RLVR 的基础上增加一个转移奖励,以测试一个模型的部分推理前缀能否被另一模型继续推导从而得到正确答案,从而提升推理任务的鲁棒性和样本效率。

ABSTRACT

Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.

研究动机与目标

  • 提升推理对最终答案正确性之外的鲁棒性动机。
  • 引入推理可转移性作为鲁棒大语言模型推理的标准。
  • 通过在 RLVR 中加入转移奖励,鼓励跨模型前缀的可转移性,开发 RLTR。
  • 在数学与科学推理等基准上展示更高的准确性、一致性和样本效率。

提出的方法

  • 将可转移性定义为接收模型能够继续推理以达到正确答案的前缀推理。
  • 截断生成器的推理轨迹,并用冻结的接收模型评估继续推理以获得转移奖励。
  • 将答案奖励、格式奖励和转移奖励合并为统一的 RL 目标。
  • 使用 GRPO(Group Relative Policy Optimization)在 RLTR 目标下训练生成器。
  • 在多项基准(数学与科学推理)上进行评估,包括 MATH-500、GSM8K、AMC23、AIME2024 和 GPQA。
Figure 1 : Overview of RLTR: RLTR augments standard RLVR with a transfer reward. Top: A trainable generator model produces a full completion, whose final-answer correctness yields on answer reward for policy optimization. Bottom: We then truncate the generated reasoning to form a prefix and feed it
Figure 1 : Overview of RLTR: RLTR augments standard RLVR with a transfer reward. Top: A trainable generator model produces a full completion, whose final-answer correctness yields on answer reward for policy optimization. Bottom: We then truncate the generated reasoning to form a prefix and feed it

实验结果

研究问题

  • RQ1相较于 RLVR 和基础模型,RLTR 是否在准确性和多样本一致性(Maj@K)方面有提升?
  • RQ2RLTR 如何影响训练动态与样本效率?
  • RQ3推理可转移性与结果的一致性之间是否存在正相关关系?
  • RQ4RLTR 的组成部分(转移奖励、接收模型)如何贡献于性能与鲁棒性?

主要发现

  • RLTR 在中等与较难的基准上对 RLVR 的 Maj@K 和平均准确率显示出稳定提升(例如在 MATH-500:Maj@64 从 82.6 提升到 84.2,Acc. 从 71.0 提升到 77.0)。
  • 在 GSM8K(分布外)中,RLTR 将 Acc. 从 89.1 提升到 92.0,Maj@64 从 92.7 提升到 94.2,性能超过 RLVR。
  • 在 MATH-500 上,RLTR 以大约 2.5 倍的较少训练步骤实现与 RLVR 相似或更好的最终表现。
  • 转移可转移性往往与 Maj@64 一起进化,训练过程中 RLVR 的转移性和 Maj@64 会下降,而 RLTR 同时提升两者。
  • RLTR 的泛化能力不仅限于数学,在 GPQA(科学推理)上也有提升,并在 Pass@K 指标上保持多样性。
(a) Average accuracy
(a) Average accuracy

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。