Skip to main content
QUICK REVIEW

[論文レビュー] Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Xiao Liang, Zhong-Zhi Li|arXiv (Cornell University)|Feb 2, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文は DAC-RL を提案する。これは LLM を訓練して分割統治(DAC)推論を実行させるエンドツーエンドの強化学習フレームワークであり、連鎖推論(CoT)よりも推論上限を高くし、テスト時のスケーラビリティを改善する。DAC-RL は競技レベルのベンチマークにおいて CoT と比較して Pass@1 および Pass@32 を大幅に向上させる。

ABSTRACT

Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.

研究の動機と目的

  • DAC スタイルの推論を、難解なタスクに対するスケーラブルな代替案として連続的 CoT に対して動機づける。
  • DAC スタイル推論の潜在能力を制限する、事後訓練一般化と DAC スタイル推論との不整合を同定する。
  • LLM を DAC 推論の訓練に用いるエンドツーエンドの RL フレームワークを提案する。
  • DAC-RL が性能の天井を引き上げ、数学ベンチマークでのテスト時のスケーラビリティを改善することを実証する。

提案手法

  • DAC 推論を、分割ステップ(サブ問題を生成)と征服ステップ(サブ問題を解き、元の問題を解く)として形式化する。
  • 分割と征服の報酬を同時に最適化する統一的な RL 目的関数を導入する(Eq. 1)。
  • 分割報酬を、形式的妥当性、量的妥当性、有用性を組み合わせて定義する(Eq. 2)。
  • 二段階 DAC で学習する:各グループにつき Gd 個のサブ問題グループと Gc 個の征服解を生成する;最終解の正確性を征服報酬として用いる(Eq. 3)。
  • 競技レベルのベンチマーク(AIME 2024/2025、Beyond-AIME、HMMT)で passes@k 指標を用いて評価し、Init-CoT・Init-DAC・RL-CoT・RL-DAC と比較する。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドの RL 訓練は、事後訓練 CoT が提供する以上の DAC スタイル推論を LLM に解放できるか?
  • RQ2DAC スタイルの訓練は、CoT よりも高い性能の天井とテスト時のスケーラビリティを、最前線の数学ベンチマークで実現するか?
  • RQ3サブ問題の分割品質と征服品質は、最終的な問題解決性能にどのように共同影響するか?
  • RQ4深い DAC 訓練とコールドスタート蒸留が DAC 能力に与える影響は?
  • RQ5スケーラビリティのための最適なテスト時 DAC 設定(分割と征服の割り当て)は何か?

主な発見

ModelAIME 2024 Pass@1AIME 2024 Pass@32AIME 2025 Pass@1AIME 2025 Pass@32Beyond-AIME Pass@1Beyond-AIME Pass@32HMMT 2025 Pass@1HMMT 2025 Pass@32Average Pass@1Average Pass@32
Qwen2.5-7B-Instruct Init-CoT9.826.76.836.73.823.02.010.05.624.1
Qwen2.5-7B-Instruct Init-DAC0.513.30.26.70.710.00.26.70.49.2
Qwen2.5-7B-Instruct RL-CoT13.534.511.430.85.125.52.713.18.227.0
Qwen2.5-7B-Instruct RL-DAC15.539.115.534.27.027.44.820.810.430.4
Qwen3-4B-Instruct-2507 Init-CoT62.690.045.776.732.165.030.356.742.772.1
Qwen3-4B-Instruct-2507 Init-DAC59.690.043.273.329.661.028.263.340.271.9
Qwen3-4B-Instruct-2507 RL-CoT45.985.852.177.430.458.121.854.437.569.0
Qwen3-4B-Instruct-2507 RL-DAC63.987.754.278.834.667.931.966.646.175.3
Qwen3-4B-Instruct-2507 (Deep) RL-D-CoT64.484.858.887.938.969.537.665.549.976.9
Qwen3-4B-Instruct-2507 (Deep) RL-D-DAC66.391.661.587.638.870.738.776.451.381.6
  • DAC スタイルの訓練は CoT より高い天井を示し、競技ベンチマーク全体で Pass@1 および Pass@32 を向上させる(例:特定モデルでの Pass@1 +8.6%、Pass@32 +6.3%)。
  • 初期の DAC パフォーマンスが低くても DAC-RL は CoTRL や他の基準法より優れており、訓練時の利点が強いことを示す。
  • 深い DAC 訓練は推論およびテスト時のスケーラビリティをさらに高め、特に難問で CoT ベースラインを上回る顕著な利得がある。
  • Mix-RL(CoT と DAC の組み合わせ)は簡単なタスクの CoT パフォーマンスを向上させつつ、難問では DAC 推論を可能にする。
  • テスト時の DAC 設定は、サブ問題グループ数を増やし征服ソリューション数を減らすほど、固定予算内での性能が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。