Skip to main content
QUICK REVIEW

[論文レビュー] Measuring Mathematical Problem Solving With the MATH Dataset

Dan Hendrycks, Collin Burns|arXiv (Cornell University)|Mar 5, 2021
Topic Modeling参考文献 40被引用数 272
ひとこと要約

この論文は、ステップバイステップの解答付きの機械的な数学問題解決を測定する12,500問のベンチマークMATHと、数学的推論を強化する大規模な前学習コーパスAMPSを導入します。現在のモデルは苦戦しており、スケーリングだけでは不十分であることを示します。

ABSTRACT

Many intellectual endeavors require mathematical problem solving, but this skill remains beyond the capabilities of computers. To measure this ability in machine learning models, we introduce MATH, a new dataset of 12,500 challenging competition mathematics problems. Each problem in MATH has a full step-by-step solution which can be used to teach models to generate answer derivations and explanations. To facilitate future research and increase accuracy on MATH, we also contribute a large auxiliary pretraining dataset which helps teach models the fundamentals of mathematics. Even though we are able to increase accuracy on MATH, our results show that accuracy remains relatively low, even with enormous Transformer models. Moreover, we find that simply increasing budgets and model parameter counts will be impractical for achieving strong mathematical reasoning if scaling trends continue. While scaling Transformers is automatically solving most other text-based tasks, scaling is not currently solving MATH. To have more traction on mathematical problem solving we will likely need new algorithmic advancements from the broader research community.

研究の動機と目的

  • 機械学習モデルの数学的問題解決能力を、多様な競技式数学問題のセットを用いて評価する。
  • 学習と評価を支援する、完全なステップバイステップ解答を含む大規模で解釈可能なデータセットを提供する。
  • AMPSを導入する。基礎知識を広範な数学トピックにわたって学習させる前訓練コーパス。
  • モデルサイズ、前訓練、及びステップバイステップ解答への露出がMATHの性能に与える影響を評価する。

提案手法

  • AMC、AIME、関連競技からMATHを作成し、7科目、難易度レベル1–5を含む。最終箱入り解答で厳密一致スコアを要求する。
  • 各問題に対して完全なステップバイステップ解答を提供し、学習と解釈性を支援する。
  • Khan AcademyとMathematica生成問題からLaTeX形式の解答を含むAMPS前訓練コーパスを開発する。
  • AMPSで自己回帰モデルを事前訓練し、MATHで最終解答と完全解答の混合目的でファインチューニングする。
  • 様々な設定でGPT-2/3をMATH上で評価する。AMPS前訓練の有無、ステップバイステップのスクラッチスペースの有無、部分解のヒントの有無を含む。
  • 性能・信頼度・誤検出を分析し、訓練と推論時のステップバイステップ解答の包含の影響を評価する。

実験結果

リサーチクエスチョン

  • RQ1現在の言語モデルは高校レベルの競技式数学問題をどれだけうまく解けるか。
  • RQ2AMPS前訓練は単なるスケーリングと比べて数学問題解決性能を意味のある程度改善するか。
  • RQ3ステップバイステップ解答はモデルにとって有用なスクラッチスペースとして機能するか、どのような条件で。
  • RQ4部分的または完全なステップバイステップ解答の提供がモデルの精度に与える影響は何か。
  • RQ5TransformersのスケーリングだけでMATHで高精度を達成できるか、それともアルゴリズム革新が必要か。

主な発見

  • MATHでのモデルの精度は大規模なトランスフォーマーでも依然として低く(例: GPT-3 175B の平均5.2%)
  • AMPS前訓練により0.1Bモデルがファインチューニング済みの13Bモデルの性能に匹敵する、データ効率を示す。
  • この設定ではAMPS前訓練はMath StackExchangeデータ前訓練より優れている。
  • 推論時にステップバイステップ解答を生成すると精度が低下する可能性、スクラッチスペース挙動が進行を阻害する可能性。
  • ステップバイステップ解答を用いた訓練、または部分的な真実解答を用いた訓練は、質問と最終解答のみを用いる場合より性能を改善できる。
  • 巨大なスケーリングをしても40%精度を達成するには実用的でないパラメータ数が必要で、新しいアルゴリズムの必要性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。