[論文レビュー] ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving
ToRAは自然言語推論とツールベースの計算を統合し、10データセットでオープンソースモデルの中で最先端の結果を達成し、主要なベンチマークで一部のクローズドモデルに匹敵または上回る。
Large language models have made significant progress in various language tasks, yet they still struggle with complex mathematics. In this paper, we propose ToRA a series of Tool-integrated Reasoning Agents designed to solve challenging mathematical problems by seamlessly integrating natural language reasoning with the utilization of external tools (e.g., computation libraries and symbolic solvers), thereby amalgamating the analytical prowess of language and the computational efficiency of tools. To train ToRA, we curate interactive tool-use trajectories on mathematical datasets, apply imitation learning on the annotations, and propose output space shaping to further refine models' reasoning behavior. As a result, ToRA models significantly outperform open-source models on 10 mathematical reasoning datasets across all scales with 13%-19% absolute improvements on average. Notably, ToRA-7B reaches 44.6% on the competition-level dataset MATH, surpassing the best open-source model WizardMath-70B by 22% absolute. ToRA-Code-34B is also the first open-source model that achieves an accuracy exceeding 50% on MATH, which significantly outperforms GPT-4's CoT result, and is competitive with GPT-4 solving problems with programs. Additionally, we conduct a comprehensive analysis of the benefits and remaining challenges of tool interaction for mathematical reasoning, providing valuable insights for future research.
研究の動機と目的
- 外部ツールと推論を結合することにより、オープンソースモデルが高度な数学的推論を行えるようにする動機づけ。
- 対話的なツール利用の軌跡を整備し、模倣学習と出力空間整形によってモデルを訓練する。
- 推論過程とプログラム的ツール利用を交互に組み合わせることが、従来の手法に比べて大きな改善をもたらすことを示す。
提案手法
- 自然言語の推論とプログラムベースのツール利用を組み合わせた相互に入れ替わる推論形式を設計する(interleaved r and a, with tool outputs o)。
- GSM8kとMATH上でGPT-4を用いて対話的なツール利用の軌跡を収集し、ToRA-Corpusを作成する。
- ToRA-Corpusを用いた模倣学習で、問題が与えられたときに次の推論・プログラム・出力を予測するようモデルを訓練する。
- 教師モデルを用いたサンプリングと修正によって軌跡を多様化・正確化し、出力空間整形を適用する。
- 7B–70BパラメータのLLaMA-2およびCodeLLaMAをファインチューニングしてToRAおよびToRA-Code系列を得る。
- GSM8k、MATH、GSM-Hard、SVAMP、TabMWP、ASDiv、SingleEQ、SingleOP、AddSub、MultiArith の10データセットで評価する。
実験結果
リサーチクエスチョン
- RQ1自然言語の推論とプログラムベースのツール利用を交互に組み合わせることは、オープンソースLLMの数学的推論を改善するか?
- RQ2模倣学習と出力空間整形は、標準的な数学ベンチマークにおけるクローズドソースモデルとの差を縮められるか?
- RQ3ツール統合は、モデルスケール(7B–70B)と問題領域全体で性能にどう影響するか?
- RQ4ツール駆動型数学推論における主な失敗モードと課題は何か?
主な発見
| Model | Size | Tools | ZS | GSM8k | MATH | GSM-Hard | SVAMP | TabMWP | ASDiv | MAWPS | AVG |
|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4 | - | - | ✗ | 92.0 | 42.5 | 64.7 | 93.1 | 67.1 | 91.3 | 97.6 | 78.3 |
| GPT-4 (PAL) | - | ✓ | ✗ | 94.2 | 51.8 | 77.6 | 94.8 | 95.9 | 92.6 | 97.7 | 86.4 |
| ChatGPT | - | - | ✗ | 80.8 | 35.5 | 55.9 | 83.0 | 69.1 | 87.3 | 94.6 | 72.3 |
| ChatGPT (PAL) | - | ✓ | ✗ | 78.6 | 38.7 | 67.6 | 77.8 | 79.9 | 81.0 | 89.4 | 73.3 |
| WizardMath | 7B | - | ✗ | 54.9 | 10.7 | 20.6 | 57.3 | 38.1 | 59.1 | 73.7 | 44.9 |
| ToRA | 7B | ✓ | ✓ | 68.8 | 40.1 | 54.6 | 68.2 | 42.4 | 73.9 | 88.8 | 62.4 |
| ToRA-Code | 7B | ✓ | ✓ | 72.6 | 44.6 | 56.0 | 70.4 | 51.6 | 78.7 | 91.3 | 66.5 (+19) |
| LLaMA-2 13B | 13B | - | ✗ | 24.3 | 6.3 | 13.6 | 43.1 | 39.5 | 56.3 | 70.4 | 36.2 |
| ToRA 13B | 13B | ✓ | ✓ | 72.7 | 43.0 | 57.3 | 72.9 | 47.2 | 77.2 | 91.3 | 65.9 |
| ToRA-Code 13B | 13B | ✓ | ✓ | 75.8 | 48.1 | 60.5 | 75.7 | 65.4 | 81.4 | 92.5 | 71.3 (+5.4) |
| ToRA 34B | 34B | ✓ | ✓ | 80.7 | 50.8 | 63.7 | 80.5 | 70.5 | 84.2 | 93.3 | 74.8 |
| ToRA-Code 34B | 34B | ✓ | ✓ | 80.7 | 50.8 | 63.7 | 80.5 | 70.5 | 84.2 | 93.3 | 74.8 (+14) |
| ToRA 70B | 70B | ✓ | ✓ | 84.3 | 49.7 | 67.2 | 82.7 | 74.0 | 86.8 | 93.8 | 76.9 (+13) |
| ToRA-Code 70B | 70B | ✓ | ✓ | 84.3 | 49.7 | 67.2 | 82.7 | 74.0 | 86.8 | 93.8 | 76.9 (+13) |
- ToRA と ToRA-Code は、すべてのスケールで10個の数学データセットを横断して従来のオープンソースモデルを一貫して上回り、平均で13%-19%の絶対的な改善を達成。
- ToRA-70B は MATH で WizardMath-70B を絶対値で22%上回り、コードを用いる GPT-4 ソリューションと競合。
- ToRA-Code-34B は MATH データセットで50%以上の正確性を超え、GPT-4 CoT の結果を凌ぎ、コード付きの GPT-4 と競合。
- 出力空間整形(サンプリングと修正)は特に小型モデルで substantial gains を生み、MATH の正確性を最大4.5%絶対向上。
- 相互入れ替え推論形式(推論 + プログラム + ツール出力)は、推論のみまたはプログラムのみのベースラインを一貫して上回り、代数や前設計などのサブトピックでも顕著な改善を示す。
- ToRA は問題あたり平均1.02回のツール相互作用ラウンドで高速なゼロショット推論を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。