[論文レビュー] D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use
D-CORE は自己蒸留によるタスク分解と多様性意識型 GRPO を組み合わせた二段階学習フレームワークを導入し、遅延推論(Lazy Reasoning)を克服。BFCLv3 と tau-bench で最新性能を達成し、モデル規模を横断してスケーラブルな改善を示す。
Effective tool use and reasoning are essential capabilities for large reasoning models~(LRMs) to address complex real-world problems. Through empirical analysis, we identify that current LRMs lack the capability of sub-task decomposition in complex tool use scenarios, leading to Lazy Reasoning. To address this, we propose a two-stage training framework D-CORE~(\underline{ extbf{D}}ecomposing tasks and \underline{ extbf{Co}}mposing \underline{ extbf{Re}}asoning processes) that first incentivize the LRMs' task decomposition reasoning capability via self-distillation, followed by diversity-aware reinforcement learning~(RL) to restore LRMs' reflective reasoning capability. D-CORE achieves robust tool-use improvements across diverse benchmarks and model scales. Experiments on BFCLv3 demonstrate superiority of our method: D-CORE-8B reaches 77.7\% accuracy, surpassing the best-performing 8B model by 5.7\%. Meanwhile, D-CORE-14B establishes a new state-of-the-art at 79.3\%, outperforming 70B models despite being 5$ imes$ smaller. The source code is available at https://github.com/alibaba/EfficientAI.
研究の動機と目的
- LRMs におけるサブタスク分解の欠如が複雑なツール使用シナリオで Lazy Reasoning を招く点を特定する。
- 外部教師なしに明示的なタスク分解をブートストラップする自己蒸留フレームワークを開発する。
- Diversity-Aware GRPO を導入して分解能力を維持しつつ反省的な推論を回復させる。
- 多様なベンチマーク(BFCLv3、tau-bench)とモデルスケールで堅牢な改善を示す。
- 学習駆動型ツール使用を支援するオープンソース資源と分析を提供する。
提案手法
- Stage 1: 自己蒸留によりタスク分解とサブタスク実行を促進する。文脈情報(C = {P, T, C})を用いてプロンプトから分解されたサブタスクを生成し、推論軌跡を構成して指示学習を行う。
- Stage 2: Diversity-Aware GRPO(DA-GRPO)により RL の安定化と反省的で多様な推論を促進する。利得関数のエントロピーベースの調整(ψ(Hdetach))と上限エントロピー項(δ)を導入。
- 推論プロセスは <think> タグで表現され、計画と実行の行動を可能にする順序付き思考に分解される。
- データ生成は 40k の自己蒸留事例と 5k の RL サンプルを含み、バックボーンとして Qwen3-8B/14B や packing/Verl フレームワークを用いて学習を行う。
- 評価ベンチマークには BFCLv3 および tau-bench を含み、単一ターン、並行、無関連性、複数ターンタスクタイプでオープンソース・クローズドソースのベンチマークと比較する。

実験結果
リサーチクエスチョン
- RQ1Explicit なタスク分解は Lazy Reasoning を緩和し、 LRMs のマルチターンツール使用を改善できるか。
- RQ2自己蒸留は強力な教師を必要とせずに分解とサブタスク実行を伝えることができるか。
- RQ3DA-GRPO は複雑なツール使用設定で反省的な推論を回復し、タスク分解を維持できるか。
- RQ4D-CORE の利得は分布外のベンチマークや未知のドメインへ一般化するか。
主な発見
- D-CORE は Qwen3-8B および Qwen3-14B に対して BFCLv3 および tau-bench の精度を大幅に改善(例: D-CORE-8B 全体 77.7%、D-CORE-14B 全体 79.3%)。
- 自己蒸留はタスク分解を高めるが、追加機構がないと探索の多様性が低下する可能性がある。
- DA-GRPO はエントロピー基づく利得項を導入することで勾配崩壊を緩和し、最適設定は α=0.1 および δ=0.5 の周辺。
- DA-GRPO と自己蒸留の組み合わせは報酬を高め、分解を損なうことなくより均衡の取れた推論(より多くの反省を促進する)を実現。
- D-CORE は分布外一般化が強く、ACEBench、tau2-Bench、BFCLv4-agentic などのトレーニング分布を超えて競争力を維持。
- 自己蒸留の効果はデータサイズとともに拡大する;GRPO 単独ではマルチターンタスクでの利得が限定される可能性。
- D-CORE の推論から生成された軌跡は、複雑なツール使用シナリオにおける prior methods より優れた SFT 結果を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。