[論文レビュー] Beyond Correctness: Learning Robust Reasoning via Transfer
RLTR は RLVR を拡張し、部分的な推論プレフィックスを別のモデルが継続して正解に到達できるかを検証する転移報酬を追加することで、推論タスク全般の堅牢性とサンプル効率を向上させます。
Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.
研究の動機と目的
- 最終解答の正確さを超えた推論の堅牢性を動機づける。
- 堅牢なLLM推論の指標として推論の転移性を導入する。
- クロスモデルのプレフィックス転移性を促す転移報酬をRLVRに追加してRLTRを開発する。
- 数学・科学的推論ベンチマーク全体で精度、一貫性、サンプル効率の改善を示す。
提案手法
- 転送可能性を、受信モデルが正解に到達するまでのプレフィックス推論として定義する。
- 生成器の推論トレースを切り取り、凍結した受信者モデルによる継続を評価して転移報酬を得る。
- 解答報酬、形式報酬、転移報酬を統一RL目的関数に統合する。
- RLTR目的関数の下で生成器を訓練するために GRPO(Group Relative Policy Optimization)を使用する。
- MATH-500、GSM8K、AMC23、AIME2024、GPQA を含む複数のベンチマークで評価する。

実験結果
リサーチクエスチョン
- RQ1RLTR は RLVR およびベースモデルと比較して精度と複数サンプルの一貫性(Maj@K)を改善するか?
- RQ2RLTR は訓練ダイナミクスとサンプル効率にどのように影響するか?
- RQ3推論転移性と結果の一貫性には正の相関があるか?
- RQ4転移報酬、受信者モデルなどの RLTR の構成要素は性能と堅牢性にどう貢献するか?
主な発見
- RLTR は中程度・難易度のベンチマーク(例:MATH-500 で Maj@64 が 82.6 から 84.2、Acc. が 71.0 から 77.0 へ)において RLVR を上回り、Maj@K および平均精度を一貫して改善する。
- GSM8K(分布外)では RLTR が Acc. を 89.1 から 92.0、Maj@64 を 92.7 から 94.2 に向上させ、RLVR を上回る。
- MATH-500 では RLVR より約 2.5 倍の訓練ステップで最終性能が同等またはそれ以上。
- 転移性は Maj@64 と共進化する傾向があり、訓練中に RLVR は転移性と Maj@64 が低下するのに対し、RLTR は両方を改善する。
- RLTR は数学を超えて GPQA(科学推論)へもゲインを示し、Pass@K 指標ごとに多様性を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。