[論文レビュー] Solving Math Word Problems by Combining Language Models With Symbolic Solvers
この論文は、語彙問題を変数と方程式へと逐次形式化するLLMと外部の記号ソルバーを組み合わせて、段階的解法を生成し、GSM8kでPALと同程度の結果、Algebraデータセットでは約20%の絶対的改善を達成している。
Automatically generating high-quality step-by-step solutions to math word problems has many applications in education. Recently, combining large language models (LLMs) with external tools to perform complex reasoning and calculation has emerged as a promising direction for solving math word problems, but prior approaches such as Program-Aided Language model (PAL) are biased towards simple procedural problems and less effective for problems that require declarative reasoning. We propose an approach that combines an LLM that can incrementally formalize word problems as a set of variables and equations with an external symbolic solver that can solve the equations. Our approach achieves comparable accuracy to the original PAL on the GSM8K benchmark of math word problems and outperforms PAL by an absolute 20% on ALGEBRA, a new dataset of more challenging word problems extracted from Algebra textbooks. Our work highlights the benefits of using declarative and incremental representations when interfacing with an external tool for solving complex math word problems. Our data and prompts are publicly available at https://github.com/joyheyueya/declarative-math-word-problem.
研究の動機と目的
- 数学の語彙問題に対して高品質なステップバイステップ解を自動生成する動機付け。
- 宣言的推論のための純粋に手続き的なLLMアプローチ(例:PAL)の限界に対処する。
- LLMによる宣言的で段階的な形式化と外部の記号ソルバーによる解法という二段階アプローチを提案する。
- GSM8kと新しいAlgebraベースのデータセットで評価し、より難しい宣言的問題を検証する。
- 再現性のためにデータとプロンプトを公開共有する。
提案手法
- Declarativeプロンプトを介して問題を変数と方程式へと逐次的に形式化するためにLLMを使用する。
- 各文が変数または方程式を宣言し、すべての量が単一の変数に対応することを保証する原則を備えたDeclarativeプロンプトを作成する。
- 問題を付加し、LLMに自然言語と形式的宣言が交互に現れる解を生成させる。
- 得られた方程式系を外部の記号ソルバー(SymPy)に渡し、LLMの演算に頼らない。
- CoT、PAL、DeclarativeプロンプトをSymPy有無で比較する複数のプロンプト変種を比較する。
実験結果
リサーチクエスチョン
- RQ1段階的な宣言的形式化と記号ソルバーを組み合わせることで、これまでのLLMベースの方法と同等以上の成績を数学の語彙問題で達成できるか?
- RQ2宣言的プロンプトは手続き的手法よりも難解な代数風の問題をよりうまく扱えるか?
- RQ3逐次的な形式化とワンショットまたは単一ステップの定式化との影響はどのようか?
- RQ4提案されたアプローチはGSM8kとAlgebraデータセット全体でPALおよびCoTと比べてどう性能か?
主な発見
| 方法 | GSM8k | Algebra |
|---|---|---|
| CoT_8-shot (original) | 62.5±0.16 | 45.3±0.56 |
| CoT_3-shot (ours) | 58.9±0.16 | 47.9±1.18 |
| PAL_8-shot (original) | 70.2±0.25 | 51.7±0.21 |
| PAL_3-shot (ours) | 73.3±0.13 | 56.2±0.21 |
| Declarative_8-shot+SymPy | 64.7 | - |
| Declarative_3-shot+SymPy | 66.0±0.33 | - |
| Declarative_3-shot+principles+SymPy | 69.4±0.65 | 76.3±0.93 |
| Declarative_3-shot+principles | 22.4±0.27 | - |
| One-step Declarative_3-shot+SymPy | 57.5±0.06 | - |
- GSM8kでは、Declarative3-shot+principles+SymPyの設定がPAL8-shotと同等の性能を達成(69.4±0.65% vs 73.3±0.13%)、方程式はSymPyが解く。
- Algebraデータセットでは、Declarative3-shot+principles+SymPy法がPALを絶対値で20%上回る(76.3±0.93% vs 56.2±0.21%)。
- 方程式をSymPyで解くほうが、LLMに直接解かせるよりはるかに良い結果を生む(Declarative3-shot+principlesの場合は66.0±0.33% vs 22.4±0.27%)。
- 逐次的宣言的形式化は1-step宣言的アプローチより性能を改善(GSM8k比較で69.4±0.65% vs 57.5±0.06%)。
- 代数では宣言的プロンプトがCoTやPALより有効である。手続き的ステップではなく宣言的推論が求められるため。
- 全体として、外部ソルバーと対話する際の宣言的かつ逐次的表現の利点を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。