[論文レビュー] Solving Quantitative Reasoning Problems with Language Models
Minervaは、一般データと技術データで訓練された大規模言語モデルで、外部ツールを使用せずに定量的推論を行い、複数のベンチマークで最先端の結果を達成し、200問以上の学部レベルの問題を解く。
Language models have achieved remarkable performance on a wide range of tasks that require natural language understanding. Nevertheless, state-of-the-art models have generally struggled with tasks that require quantitative reasoning, such as solving mathematics, science, and engineering problems at the college level. To help close this gap, we introduce Minerva, a large language model pretrained on general natural language data and further trained on technical content. The model achieves state-of-the-art performance on technical benchmarks without the use of external tools. We also evaluate our model on over two hundred undergraduate-level problems in physics, biology, chemistry, economics, and other sciences that require quantitative reasoning, and find that the model can correctly answer nearly a third of them.
研究の動機と目的
- 高品質な数学的内容を訓練データとして用い、言語モデルの定量的推論能力のギャップを埋める。
- 自然言語と正式な数学表記を組み合わせた大規模な、数学に焦点を当てた訓練コーパスを作成する。
- 外部計算機やツールを使わずに、強力なfew-shot性能と自給自足の推論を実証する。
- 多様なデータセット(MATH、GSM8k、MMLU-STEM)および学部OCW問題で評価し、堅牢性と一般化能力を評価する。
提案手法
- PaLM事前学習済みモデル(8B、62B、540B)から開始する。
- 数式表記を保持するため、数学のウェブページとarXivコンテンツからなる数学データセットでファインチューニングする。
- LaTeXと自然言語の説明を用いて自己完結型の解答を生成する自己回帰的学習を行う。
- 外部ツールを使わず、複数サンプルでのfew-shot promptingと多数決(maj1@k)を主に評価する。
- SymPyを用いて最終的な数値・記号解を解析・検証して正確さを確認する。
- 純粋な数学を超えた学部レベルの科学問題に評価を拡張するため、200以上のMIT OCW問題を選定する。
実験結果
リサーチクエスチョン
- RQ1外部ツールを使わずに、定量的推論タスクで高い精度を達成できるか?
- RQ2モデルサイズとデータ品質が数学・科学・工学の問題での性能にどのように影響するか?
- RQ3複数サンプルの多数決は、1サンプルの貪欲デコードより定量的推論の精度を向上させるか?
- RQ4定量的問題を解く際、モデルが暗記に依存する程度と真の推論に依存する程度はどのくらいか?
主な発見
- Minervaは、外部ツールを使わず、few-shot設定でMATH、GSM8k、およびMMLUのSTEMサブセットで最先端の結果を達成。
- GSM8kの性能は、maj1@kサンプリングで540Bモデルで78.5%に達する。
- MATHの結果は、より大きなモデルと多数決投票で大きな改善を示し、例えばMaj1@kは非アンサンブル出力より大幅に改善される。
- OCWCourses(学部レベルの問題)は、より大きなMinervaモデルと多数決投票で測定可能な向上を示す。
- ポーランドの国家試験の結果は、62Bと540Bがそれぞれ57%、65%を達成し、標準ベンチマーク以外への転移を示唆。
- 分析は、モデルの成功が単なる暗記によるものではなく、問題表現や問題の変更への頑健性もあることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。