[論文レビュー] Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
本論は GPT-4 Code Interpreter のコード生成/実行を分析し、CSV(explicit code-based self-verification)と検証誘導型重み付き多数決投票を提案して、数理問題解決を向上させ、CSVと投票を組み合わせた後に MATH で 84.32% を GPT-4 Code で達成する。
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs' reasoning capability by introducing different constraints on the \textit{Code Usage Frequency} of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit \uline{c}ode-based \uline{s}elf-\uline{v}erification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as ``False'', the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset \textbf{(53.9\% $\to$ 84.3\%)}.
研究の動機と目的
- GPT-4 Code Interpreter の数理問題解決に対するコード生成・実行・自己デバッグの寄与を評価する。
- 明示的なコードベースの自己検証(CSV)プロンプトが正確性と頑健性を改善するかを検証する。
- 検証状態を集約に活用する検証誘導型重み付き多数決スキームを開発する。
- オープンソースモデルのチューニングを支援する新しい指示遵守データセット(MATH-code、MMLU-Math-code)を提供する。
提案手法
- 制約付きプロンプト下での GPT-4 Code Interpreter におけるコードの使用を体系的に分析する(コード不可、1回のみコード許可、制限なしの比較)。
- モデルがコードベースの解答を生成・検証し、検証が失敗した場合に推論を調整するよう、明示的なコードベースの自己検証(CSV) prompting を導入する。
- 検証状態(True/Uncertain/False)に重みを割り当てて最終回答の選択を改善する検証誘導型重み付き多数決の実装。
- MATH、GSM8K、MMLU-Math データセットでの評価を通じて性能向上を示し、コードベース検証と自然言語検証のアブレーションおよびコード使用頻度の変化を比較。
- 再現性とオープンソースモデルの微調整を可能とする実験データの公開。
実験結果
リサーチクエスチョン
- RQ1GPT-4 Code Interpreter のコード生成/実行は複雑な数学問題の解決にどのように寄与するか?
- RQ2明示的なコードベースの自己検証(CSV)は回答の正確性と信頼性を高めるか?
- RQ3検証誘導型重み付き多数決は検証状態を活用して最終回答の正確性をさらに向上させるか?
- RQ4難易度レベルおよびデータセット全体でのコード使用頻度がモデルの性能に与える影響は?
主な発見
- コード使用を伴う GPT-4 Code は MATH で基準系を大幅に上回る(69.69% 対 53.90%)。
- 明示的なコードベースの自己検証(CSV)を追加すると MATH の正確度は 73.54% へ向上。
- CSVと検証誘導型重み付き多数決を組み合わせると MATH で 84.32% に達する(k=16 パス)。
- コード使用頻度は正確性と正の相関を示し、特に難易度の高い問題で顕著。
- サブトピックのほとんどで、コードベース検証は自然言語検証を上回る。
- CSVと投票を組み合わせた場合、GSM8Kと MMLU-Math で最先端の結果を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。