[論文レビュー] Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning
The paper introduces TabMWP, a large-scale tabular math word problem dataset, and PromptPG, a policy-gradient-based method that learns in-context example selection to improve few-shot GPT-3 reasoning over tabular data.
Mathematical reasoning, a core ability of human intelligence, presents unique challenges for machines in abstract thinking and logical reasoning. Recent large pre-trained language models such as GPT-3 have achieved remarkable progress on mathematical reasoning tasks written in text form, such as math word problems (MWP). However, it is unknown if the models can handle more complex problems that involve math reasoning over heterogeneous information, such as tabular data. To fill the gap, we present Tabular Math Word Problems (TabMWP), a new dataset containing 38,431 open-domain grade-level problems that require mathematical reasoning on both textual and tabular data. Each question in TabMWP is aligned with a tabular context, which is presented as an image, semi-structured text, and a structured table. There are two types of questions: free-text and multi-choice, and each problem is annotated with gold solutions to reveal the multi-step reasoning process. We evaluate different pre-trained models on TabMWP, including the GPT-3 model in a few-shot setting. As earlier studies suggest, since few-shot GPT-3 relies on the selection of in-context examples, its performance is unstable and can degrade to near chance. The unstable issue is more severe when handling complex problems like TabMWP. To mitigate this, we further propose a novel approach, PromptPG, which utilizes policy gradient to learn to select in-context examples from a small amount of training data and then constructs the corresponding prompt for the test example. Experimental results show that our method outperforms the best baseline by 5.31% on the accuracy metric and reduces the prediction variance significantly compared to random selection, which verifies its effectiveness in selecting in-context examples.
研究の動機と目的
- TabMWPを導入する。表形式の文脈を伴うオープンドメインの数学ワード問題の大規模データセットで、半構造化された数学的推論を可能にする。
- PromptPG を提案する。GPT-3 の few-shot 性能を改善するために文脈内の例を選択することを学習する強化学習ベースの手法。
- 動的プロンプト学習が選択の不安定性を低減し、TabMWP における精度を向上させることを示す。
- 性能を左右する要因を理解するために、入力コンポーネント、アブレーション、選択戦略の分析を提供する。
提案手法
- TabMWP を、表形式の文脈(画像、半構造化テキスト、または構造化された表)と、自由回答型または多肢選択型の質問を含む問題として定義する。
- 表形式の文脈を3つの形式(画像、半構造化テキスト、構造化された表)で表現し、多段階の推論のための金標準解答を提供する。
- TabMWP に対する few-shot GPT-3 のベースライン評価。few-shot および few-shot-CoT プロンプトを含む。
- PromptPG を紹介する。固定パラメータの BERT エンコーダと線形ヘッドからなるポリシー勾配ベースのプロンプト学習器で、候補プールから文脈内の例をスコア付けする。
- REINFORCE を用いて GPT-3 の回答の期待報酬を最大化する。報酬は正誤に基づき ±1、より良いプロンプトを優遇するように方策パラメータを更新する。
- PromptPG を UnifiedQA および TAPEX のベースライン(事前学習済みおよび微調整済み)および他のプロンプト戦略と比較し、TabMWP における精度を報告する。
実験結果
リサーチクエスチョン
- RQ1表形式の文脈を持つ数学ワード問題のデータセットは、Few-shot 設定で GPT-3 によって効果的に解くことができるか。
- RQ2ポリシー勾配による文脈内の例選択を学習することで、ランダムまたはヒューリスティックな例選択に比べて精度が向上し、安定性の問題が低減するか。
- RQ3異なる入力形式(画像、半構造化テキスト、表)と質問タイプ(自由回答 vs 多肢選択)が性能にどのように影響するか。
- RQ4トレーニング例の数と候補プロンプトの数が PromptPG の有効性に与える影響は何か。
主な発見
- PromptPG は TabMWP で平均精度 68.23% を達成し、最良のベースラインを最大で 5.31 ポイント上回る。
- PromptPG はランダムな文脈内例選択と比較して予測分布のばらつきを低減する。
- ゼロショットの GPT-3 はすでに TabMWP で大規模な微調整ベースラインに匹敵するが、CoT を伴う few-shot プロンプティングは PromptPG の前でも最も強力な単独ベースラインのままである。
- アブレーション研究は、表形式の文脈と質問文の両方が精度に不可欠であることを示し、完全な TQ(C) 入力が最良の性能をもたらす。
- PromptPG は自由回答と多肢選択の両方の質問、及び学年レベル(1-6 および 7-8)および回答タイプを問わず一貫して性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。