QUICK REVIEW

[論文レビュー] PCL-Reasoner-V1.5: Advancing Math Reasoning with Offline Reinforcement Learning

Yao Lu, Dengdong Fan|arXiv (Cornell University)|Jan 21, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

PCL-Reasoner-V1.5 は、监督付き微調整とオフライン強化学習で洗練された Qwen2.5-32B に基づく 32B LLM で、Qwen-32B ポスト訓練モデルの中で最先端の AIME pass@1 を達成（AIME 2024 で 90.9%、AIME 2025 で 85.6%）。

ABSTRACT

We present PCL-Reasoner-V1.5, a 32-billion-parameter large language model (LLM) for mathematical reasoning. The model is built upon Qwen2.5-32B and refined via supervised fine-tuning (SFT) followed by reinforcement learning (RL). A central innovation is our proposed offline RL method, which provides superior training stability and efficiency over standard online RL methods such as GRPO. Our model achieves state-of-the-art performance among models post-trained on Qwen2.5-32B, attaining average accuracies of 90.9% on AIME 2024 and 85.6% on AIME 2025. Our work demonstrates offline RL as a stable and efficient paradigm for advancing reasoning in LLMs. All experiments were conducted on Huawei Ascend 910C NPUs.

研究の動機と目的

Qwen2.5-32B に基づく二段階パイプライン（SFT + offline RL）で数学的推論を改善する。
オンライン RL よりもオフライン RL の訓練安定性、効率性、単純さの利点を示す。
ポスト-Qwen-32B モデルの中で AIME 2024 および 2025 のベンチマークで最先端の精度を達成する。
再現性を可能にするデータ、モデル、コードを公開する。

提案手法

DeepSeek-R1 から蒸留した Chain-of-Thought データで Qwen2.5-32B をファインチューニングして PCL-Reasoner-V1 を得る。
固定データセット 30,215 の triplet（質問、回答、報酬）でオフライン RL を適用して PCL-Reasoner-V1.5 を得る。
推論時には質問ごとに 8 件の候補回答を使用し、グラウンドトゥルースに対する検証ステップで報酬を算出する。
幾何平均のトークン確率を最適化する専用のオフライン RL 損失で方策を訓練する。
効率化のため FP16 訓練、AdamW 最適化、コサイン学習率スケジュール、データパッキングを採用する。
評価はサンプリングベースのデコード（top-k 40、top-p 0.95、温度 0.6）と 129,024 トークン制限で行う。

Figure 1: Evaluation results of 32B models on AIME (pass@1)

実験結果

リサーチクエスチョン

RQ1オフライン強化学習は LLM のオンライン RL 手法と比較して競争力のある、あるいはそれを上回る数学的推論性能を達成できるか。
RQ2オフライン RL が LLM の推論能力のファインチューニングにおける安定性、効率性、エンジニアリング上の利点となるか。
RQ3オフライン RL は AIME のような難解な数学ベンチマークで長い CoT 推論をどの程度改善するか。
RQ4オフライン RL の設定でどのデータとデコード戦略が性能向上を最大化するか。

主な発見

Model	AIME 2024	AIME 2025
DeepSeek-R1	79.8	70
DeepSeek-R1-0528	91.4	87.5
Qwen3-235B-A22B	85.7	81.5
OpenAI-o3	91.6	88.9
Gemini-2.5-Pro-0506	90.8	83
QwQ-32B	79.5	69.5
DeepSeek-R1-Distill-Qwen-32B	72.6	49.6
Skywork-OR1-32B	82.2	73.3
AM-Thinking-v1	85.3	74.4
OpenReasoning-Nemotron	89.2	84.0
PCL-Reasoner-V1	85.7	84.2
PCL-Reasoner-V1.5	90.9	85.6

PCL-Reasoner-V1.5 は、Qwen2.5-32B ポスト訓練モデルの中で AIME 2024 で 90.9%、AIME 2025 で 85.6% の平均精度を達成。
RL 訓練は平均応答長を増加させ、より広範な推論（長い CoT）を示す。
RL 訓練済みモデルは、長い CoT 推論を必要とする問題で SFT モデルと比較して著しい精度向上を示す。
オフライン RL はオンライン RL アプローチと比較して訓練の安定性、推論 throughput の向上、エンジニアリングの単純さを提供する。
PCL-Reasoner-V1.5 は AIME ベンチマーク上の Qwen2.5-32B ポスト訓練モデルの中で最先端。

Figure 4: Training loss $L_{\text{norm}}(\theta)$

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。