[論文レビュー] Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning
本論文はCARPを導入し、計算集約的な代数の中間ステップ注釈を提供するデータセットを提案するとともに、ツールインターフェースを用いた二段階のDELIBER(DELI)を提案してLLMの数学推論を改善します。DELIはCARPと6つの他データセットでベースラインより優れた成績を示します。
Chain-of-thought prompting~(CoT) and tool augmentation have been validated in recent work as effective practices for improving large language models~(LLMs) to perform step-by-step reasoning on complex math-related tasks. However, most existing math reasoning datasets may be not able to fully evaluate and analyze the ability of LLMs in manipulating tools and performing reasoning, as they may only require very few invocations of tools or miss annotations for evaluating intermediate reasoning steps. To address the issue, we construct \textbf{CARP}, a new Chinese dataset consisting of 4,886 computation-intensive algebra problems with formulated annotations on intermediate steps. In CARP, we test four LLMs with CoT prompting, and find that they are all prone to make mistakes at the early steps of the solution, leading to wrong answers. Based on this finding, we propose a new approach that can deliberate the reasoning steps with tool interfaces, namely \textbf{DELI}. In DELI, we first initialize a step-by-step solution based on retrieved exemplars, then iterate two deliberation procedures that check and refine the intermediate steps of the generated solution, from the perspectives of tool manipulation and natural language reasoning, until obtaining converged solutions or reaching the maximum turn. Experimental results on CARP and six other datasets show that the proposed DELI mostly outperforms competitive baselines, and can further boost the performance of existing CoT methods. Our data and code are available in \url{https://github.com/RUCAIBox/CARP}.
研究の動機と目的
- 計算集約的な数学推論に対して中間ステップを明示した堅牢な評価をLLMsに対して行う動機づけ。
- 中間式(EFG)を注釈したデータセット(CARP)を提供し、エラーの体系的分析を可能にする。
- 手段を用いた思考(DELI)フレームワークを開発し、段階的解法を洗練させる。
- CARPおよび6つの他の計算集約的な数学データセットでDELIの有効性を示す。
提案手法
- 計算集約的な代数問題の注釈付き表現フローグラフ(EFG)を含む4,886サンプルの中国語データセットCARPを導入する。
- 計算を支援する微細なツールインターフェース(Numerical Computation、Equation Solving、Expression Transformation、think)をSymPyに基づいて定義し、計算を支援する。
- DELIを提案する:retrieval-augmented CoTによる初期化の後、ツール操作と連鎖的思考の二段階の討議手続きを通じて、収束または最大ターン数まで反復的に改良する。
- 初期解をシードするためのk件の例題の検索と、ツールを呼ぶ正式なアクションとその後の自然言語による改訂ステップによる反復的改良を用いる。
- CARPおよび6つの追加データセット(Algebra、Prealgebra、Count. & Prob.、NT、GK-Cloze、SAT-Math)に対してDELIを複数のベースラインと比較して評価する。
- 指標ExpAcc(中間式の正確性)とFail@where(最初の/中間/最後のエラーの位置)を提供する。
実験結果
リサーチクエスチョン
- RQ1CoTを用いたLLMが中間ステップが注釈された計算集約的な代数問題を解けるか。
- RQ2DELIという専用のツール討議フレームワークがCARPおよび他データセットで中間ステップおよび最終解答の正確性にどのような影響を与えるか。
- RQ3ツールと反復的討議は、初期段階の誤りが最終解答に伝播するのを減らすか。
- RQ4retrieval-augmented初期化は段階的解法を向上させるか。
主な発見
| 手法 | CARP | Algebra | Prealgebra | CP | NT | GKC | SAT | 平均 |
|---|---|---|---|---|---|---|---|---|
| Random CoT | 49.39 | 49.37 | 55.57 | 32.91 | 29.81 | 14.41 | 65.91 | 42.48 |
| Complex CoT | 48.06 | 51.64 | 53.73 | 32.91 | 32.22 | - | - | - |
| Retrieval CoT | 63.93 | 53.75 | 56.72 | 33.12 | 30.00 | - | - | - |
| PAL | 40.00 | 34.29 | 50.52 | 35.86 | 31.30 | 5.93 | 47.73 | 35.09 |
| ReAct | 64.11 | 54.51 | 54.53 | 41.77 | 31.67 | 16.94 | 72.27 | 48.07 |
| LP | - | 49.60 | 52.30 | 30.20 | 29.80 | - | - | - |
| PHP | 61.68 | 54.42 | 57.86 | 36.71 | 35.37 | 16.94 | 71.82 | 47.82 |
| Iterative CoT | 61.27 | 52.74 | 55.34 | 33.97 | 29.81 | 14.41 | 69.55 | 45.30 |
| Iterative ReAct | 61.17 | 53.92 | 52.12 | 37.34 | 32.22 | 15.25 | 70.00 | 46.00 |
| DELI | 73.46 | 59.65 | 58.32 | 39.03 | 33.15 | 17.80 | 74.54 | 50.85 |
- 標準CoTを用いたLLMsはCARPの問題の半分以上を解くのに苦労し、初期段階で誤ることが多い。
- DELIはCARP(および他データセット)でベースラインより明確な正解率向上を示し、既存のCoT手法をさらに改善できる。
- DELIの二段階討議(ツール操作と連鎖的思考)は中間推論指標(ExpAcc)を改善し、 poor final solutionsを減少させる。
- DELIは様々なCoT prompting手法と組み合わせると一貫して性能を向上させる。
- DELIによる反復討議は収束し正確性を向上させる一方、 deliberate checksなしの単純な反復変種は性能を下げる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。