Skip to main content
QUICK REVIEW

[論文レビュー] MathPrompter: Mathematical Reasoning using Large Language Models

Shima Imani, Liang Du|arXiv (Cornell University)|Mar 4, 2023
Topic Modeling被引用数 15
ひとこと要約

MathPrompter は、複数の代数的および Python 的解法パス、クロスチェック、そして合意検証を用いたゼロショットのチェーン・オブ・思考を活用して、LLM の算術推論精度を高め、175Bモデルで MultiArith において 92.5% を達成。

ABSTRACT

Large Language Models (LLMs) have limited performance when solving arithmetic reasoning tasks and often provide incorrect answers. Unlike natural language understanding, math problems typically have a single correct answer, making the task of generating accurate solutions more challenging for LLMs. To the best of our knowledge, we are not aware of any LLMs that indicate their level of confidence in their responses which fuels a trust deficit in these models impeding their adoption. To address this deficiency, we propose `MathPrompter', a technique that improves performance of LLMs on arithmetic problems along with increased reliance in the predictions. MathPrompter uses the Zero-shot chain-of-thought prompting technique to generate multiple Algebraic expressions or Python functions to solve the same math problem in different ways and thereby raise the confidence level in the output results. This is in contrast to other prompt based CoT methods, where there is no check on the validity of the intermediate steps followed. Our technique improves over state-of-the-art on the MultiArith dataset ($78.7\% ightarrow92.5\%$) evaluated using 175B parameter GPT-based LLM.

研究の動機と目的

  • LLM の数学解法における信頼性と堅牢性を高めるため、途中の手順の検証を追加する。
  • 標準的なゼロショット・プロンプトを超える算術推論タスクの精度を向上させる。
  • 人間の問題解決を模した、複数解と合意ベースの検証パイプラインを導入する。
  • ベンチマークデータセット上で、最先端のゼロショットおよび少数ショットプロンプト手法と競合可能であることを示す。

提案手法

  • 各数学問題を、数値を変数(Qt)に置換することで代数テンプレートに変換する。
  • 複数の解法プロンプト(代数的および Python 的)を生成して、異なる解析解を作成する。
  • 乱数により割り当てられた変数を用いて式を評価し、結果の合意を検証する。
  • 合意に達しない場合は、解法と検証の手順を繰り返し、試行を通じて最も頻繁に出力された最終回答を報告する。
  • 最終的な合意のために、代数解と Python 的解の出力を Python の eval() で計算・比較する。

実験結果

リサーチクエスチョン

  • RQ1ゼロショットのチェーン・オブ・思考を、複数の解法と検証で強化して算術精度を向上させることができるか?
  • RQ2中間手順のクロスチェックと複数の表現を使用することで、数学タスクにおけるLLM の信頼性を高められるか?
  • RQ3MathPrompter の性能は MultiArith におけるゼロショットおよび少数ショット CoT のベースラインとどう比較されるか?
  • RQ4複数の乱数試行にわたって、合意ベースの最終化は有効か?

主な発見

ModelAccuracy
Zero-shot17.7%
Zero-shot (PaLM 540B)25.5%
Zero-shot-CoT78.7%
Zero-shot-CoT (PaLM 540B)66.1%
Zero-shot-CoT + self consistency (PaLM 540B)89.0%
Zero-shot-CoT ( MathPrompter )92.5%
Few-Shot (2 samples)33.7%
Few-Shot (8 samples)33.8%
Few-Shot-CoT (2 samples)84.8%
Few-Shot-CoT (4 samples)90.5%
Few-Shot-CoT (8 samples)93.0%
Zero-Plus-Few-Shot-CoT (8 samples)92.8%
  • MathPrompter は MultiArith で 92.5% の精度を達成し、Zero-shot-CoT ベースラインを上回る。
  • 540B パラメータの Zero-shot-CoT と同等またはそれを上回るパフォーマンスを、同等の Few-shot-CoT 手法と比較可能な形で達成している。
  • バリアント全体で、本手法は Kojima ら(2022)が報告した 78.7% の最先端 Zero-shot-CoT(175B)を上回る向上を示している。
  • 本手法は代数解と Python 的解の両方を生成し、複数の乱数評価からの合意を用いて最終回答を選択する。
  • 代数解と Python 的出力が一致しても誤っているケースが依然として存在することから、残る制約がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。