[論文レビュー] PCL-Reasoner-V1.5: Advancing Math Reasoning with Offline Reinforcement Learning
PCL-Reasoner-V1.5 は、监督付き微調整とオフライン強化学習で洗練された Qwen2.5-32B に基づく 32B LLM で、Qwen-32B ポスト訓練モデルの中で最先端の AIME pass@1 を達成(AIME 2024 で 90.9%、AIME 2025 で 85.6%)。
We present PCL-Reasoner-V1.5, a 32-billion-parameter large language model (LLM) for mathematical reasoning. The model is built upon Qwen2.5-32B and refined via supervised fine-tuning (SFT) followed by reinforcement learning (RL). A central innovation is our proposed offline RL method, which provides superior training stability and efficiency over standard online RL methods such as GRPO. Our model achieves state-of-the-art performance among models post-trained on Qwen2.5-32B, attaining average accuracies of 90.9% on AIME 2024 and 85.6% on AIME 2025. Our work demonstrates offline RL as a stable and efficient paradigm for advancing reasoning in LLMs. All experiments were conducted on Huawei Ascend 910C NPUs.
研究の動機と目的
- Qwen2.5-32B に基づく二段階パイプライン(SFT + offline RL)で数学的推論を改善する。
- オンライン RL よりもオフライン RL の訓練安定性、効率性、単純さの利点を示す。
- ポスト-Qwen-32B モデルの中で AIME 2024 および 2025 のベンチマークで最先端の精度を達成する。
- 再現性を可能にするデータ、モデル、コードを公開する。
提案手法
- DeepSeek-R1 から蒸留した Chain-of-Thought データで Qwen2.5-32B をファインチューニングして PCL-Reasoner-V1 を得る。
- 固定データセット 30,215 の triplet(質問、回答、報酬)でオフライン RL を適用して PCL-Reasoner-V1.5 を得る。
- 推論時には質問ごとに 8 件の候補回答を使用し、グラウンドトゥルースに対する検証ステップで報酬を算出する。
- 幾何平均のトークン確率を最適化する専用のオフライン RL 損失で方策を訓練する。
- 効率化のため FP16 訓練、AdamW 最適化、コサイン学習率スケジュール、データパッキングを採用する。
- 評価はサンプリングベースのデコード(top-k 40、top-p 0.95、温度 0.6)と 129,024 トークン制限で行う。

実験結果
リサーチクエスチョン
- RQ1オフライン強化学習は LLM のオンライン RL 手法と比較して競争力のある、あるいはそれを上回る数学的推論性能を達成できるか。
- RQ2オフライン RL が LLM の推論能力のファインチューニングにおける安定性、効率性、エンジニアリング上の利点となるか。
- RQ3オフライン RL は AIME のような難解な数学ベンチマークで長い CoT 推論をどの程度改善するか。
- RQ4オフライン RL の設定でどのデータとデコード戦略が性能向上を最大化するか。
主な発見
| Model | AIME 2024 | AIME 2025 |
|---|---|---|
| DeepSeek-R1 | 79.8 | 70 |
| DeepSeek-R1-0528 | 91.4 | 87.5 |
| Qwen3-235B-A22B | 85.7 | 81.5 |
| OpenAI-o3 | 91.6 | 88.9 |
| Gemini-2.5-Pro-0506 | 90.8 | 83 |
| QwQ-32B | 79.5 | 69.5 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 49.6 |
| Skywork-OR1-32B | 82.2 | 73.3 |
| AM-Thinking-v1 | 85.3 | 74.4 |
| OpenReasoning-Nemotron | 89.2 | 84.0 |
| PCL-Reasoner-V1 | 85.7 | 84.2 |
| PCL-Reasoner-V1.5 | 90.9 | 85.6 |
- PCL-Reasoner-V1.5 は、Qwen2.5-32B ポスト訓練モデルの中で AIME 2024 で 90.9%、AIME 2025 で 85.6% の平均精度を達成。
- RL 訓練は平均応答長を増加させ、より広範な推論(長い CoT)を示す。
- RL 訓練済みモデルは、長い CoT 推論を必要とする問題で SFT モデルと比較して著しい精度向上を示す。
- オフライン RL はオンライン RL アプローチと比較して訓練の安定性、推論 throughput の向上、エンジニアリングの単純さを提供する。
- PCL-Reasoner-V1.5 は AIME ベンチマーク上の Qwen2.5-32B ポスト訓練モデルの中で最先端。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。