Skip to main content
QUICK REVIEW

[論文レビュー] PCL-Reasoner-V1.5: Advancing Math Reasoning with Offline Reinforcement Learning

Yao Lu, Dengdong Fan|arXiv (Cornell University)|Jan 21, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

PCL-Reasoner-V1.5 は、监督付き微調整とオフライン強化学習で洗練された Qwen2.5-32B に基づく 32B LLM で、Qwen-32B ポスト訓練モデルの中で最先端の AIME pass@1 を達成(AIME 2024 で 90.9%、AIME 2025 で 85.6%)。

ABSTRACT

We present PCL-Reasoner-V1.5, a 32-billion-parameter large language model (LLM) for mathematical reasoning. The model is built upon Qwen2.5-32B and refined via supervised fine-tuning (SFT) followed by reinforcement learning (RL). A central innovation is our proposed offline RL method, which provides superior training stability and efficiency over standard online RL methods such as GRPO. Our model achieves state-of-the-art performance among models post-trained on Qwen2.5-32B, attaining average accuracies of 90.9% on AIME 2024 and 85.6% on AIME 2025. Our work demonstrates offline RL as a stable and efficient paradigm for advancing reasoning in LLMs. All experiments were conducted on Huawei Ascend 910C NPUs.

研究の動機と目的

  • Qwen2.5-32B に基づく二段階パイプライン(SFT + offline RL)で数学的推論を改善する。
  • オンライン RL よりもオフライン RL の訓練安定性、効率性、単純さの利点を示す。
  • ポスト-Qwen-32B モデルの中で AIME 2024 および 2025 のベンチマークで最先端の精度を達成する。
  • 再現性を可能にするデータ、モデル、コードを公開する。

提案手法

  • DeepSeek-R1 から蒸留した Chain-of-Thought データで Qwen2.5-32B をファインチューニングして PCL-Reasoner-V1 を得る。
  • 固定データセット 30,215 の triplet(質問、回答、報酬)でオフライン RL を適用して PCL-Reasoner-V1.5 を得る。
  • 推論時には質問ごとに 8 件の候補回答を使用し、グラウンドトゥルースに対する検証ステップで報酬を算出する。
  • 幾何平均のトークン確率を最適化する専用のオフライン RL 損失で方策を訓練する。
  • 効率化のため FP16 訓練、AdamW 最適化、コサイン学習率スケジュール、データパッキングを採用する。
  • 評価はサンプリングベースのデコード(top-k 40、top-p 0.95、温度 0.6)と 129,024 トークン制限で行う。
Figure 1: Evaluation results of 32B models on AIME (pass@1)
Figure 1: Evaluation results of 32B models on AIME (pass@1)

実験結果

リサーチクエスチョン

  • RQ1オフライン強化学習は LLM のオンライン RL 手法と比較して競争力のある、あるいはそれを上回る数学的推論性能を達成できるか。
  • RQ2オフライン RL が LLM の推論能力のファインチューニングにおける安定性、効率性、エンジニアリング上の利点となるか。
  • RQ3オフライン RL は AIME のような難解な数学ベンチマークで長い CoT 推論をどの程度改善するか。
  • RQ4オフライン RL の設定でどのデータとデコード戦略が性能向上を最大化するか。

主な発見

ModelAIME 2024AIME 2025
DeepSeek-R179.870
DeepSeek-R1-052891.487.5
Qwen3-235B-A22B85.781.5
OpenAI-o391.688.9
Gemini-2.5-Pro-050690.883
QwQ-32B79.569.5
DeepSeek-R1-Distill-Qwen-32B72.649.6
Skywork-OR1-32B82.273.3
AM-Thinking-v185.374.4
OpenReasoning-Nemotron89.284.0
PCL-Reasoner-V185.784.2
PCL-Reasoner-V1.590.985.6
  • PCL-Reasoner-V1.5 は、Qwen2.5-32B ポスト訓練モデルの中で AIME 2024 で 90.9%、AIME 2025 で 85.6% の平均精度を達成。
  • RL 訓練は平均応答長を増加させ、より広範な推論(長い CoT)を示す。
  • RL 訓練済みモデルは、長い CoT 推論を必要とする問題で SFT モデルと比較して著しい精度向上を示す。
  • オフライン RL はオンライン RL アプローチと比較して訓練の安定性、推論 throughput の向上、エンジニアリングの単純さを提供する。
  • PCL-Reasoner-V1.5 は AIME ベンチマーク上の Qwen2.5-32B ポスト訓練モデルの中で最先端。
Figure 4: Training loss $L_{\text{norm}}(\theta)$
Figure 4: Training loss $L_{\text{norm}}(\theta)$

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。