QUICK REVIEW

[論文レビュー] Training Verifiers to Solve Math Word Problems

Karl Cobbe, Vineet Kosaraju|arXiv (Cornell University)|Oct 27, 2021

Natural Language Processing Techniques参考文献 28被引用数 23

ひとこと要約

本稿では、8.5Kの小学校算数文章問題から成る多様なデータセットGSM8Kを紹介し、モデルが出力する解答を評価する検証モデルの訓練を提案する。テスト時に複数の候補解答をサンプリングし、検証モデルによって順位付けされた最高の解答を選択することで、性能が著しく向上する—これはモデルサイズを30倍に増加させたのと同等の効果—検証がファインチューニングよりもデータに伴ってスケーリングしやすく、より効果的であることを示している。

ABSTRACT

State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5K high quality linguistically diverse grade school math word problems. We find that even the largest transformer models fail to achieve high test performance, despite the conceptual simplicity of this problem distribution. To increase performance, we propose training verifiers to judge the correctness of model completions. At test time, we generate many candidate solutions and select the one ranked highest by the verifier. We demonstrate that verification significantly improves performance on GSM8K, and we provide strong empirical evidence that verification scales more effectively with increased data than a finetuning baseline.

研究の動機と目的

大規模言語モデルが多段階の数学的推論タスクで失敗する原因を特定すること。
モデルサイズの増大に依存せず、スケーラブルな方法で推論性能を向上させること。
言語的多様性に富んだ高品質なデータセットを構築し、言語モデルにおける数学的推論の評価を可能とすること。
検証に基づく推論が標準的なファインチューニングを上回り、データに伴ってより効果的にスケーリングされることを示すこと。
ドロップアウトのような正則化技術が検証とファインチューニングの性能に与える影響を調査すること。

提案手法

著者らは、自然言語による解答を併記した8.5Kの小学校算数文章問題から成る、キュレートされたGSM8Kデータセットを導入し、訓練用7.5K、テスト用1Kに分割する。
モデルが出力する解答の正しさを評価する検証モデルを訓練し、2段階のプロセスを用いる：複数の候補解答の生成、その後に検証モデルによる順位付け。
テスト時に、上位順位の解答が選択され、さらに上位順位の解答の多数決を取ることで性能が向上する。
検証モデルは解答レベルまたはトークンレベルのモデルとして訓練され、後者が過学習に対してより頑健である。
ドロップアウトは正則化として用いられ、特に解答レベルの検証モデルで顕著な効果を示す。また、事前学習およびファインチューニングの両段階でドロップアウトを適用し、分布シフトを低減する。
テスト時の計算リソースを活用し、複数の完了生成を行い、検証モデルで順位付けすることで、候補解答の探索が可能になる。

実験結果

リサーチクエスチョン

RQ1検証に基づく推論は、標準的なファインチューニングと比較して、数学的文章問題の性能を著しく向上させることができるか？
RQ2ファインチューニングと比較して、検証の性能は訓練データの増加に伴ってどのようにスケーリングするか？
RQ3ドロップアウトによる正則化は、ファインチューニドモデルと検証モデルの一般化性能を向上させるか？
RQ4解答レベルとトークンレベルの検証モデルの選択が、頑健性と性能に与える影響は何か？
RQ5テスト時の推論において、生成された完了数と上位順位の解答を用いる投票数との最適なトレードオフは何か？

主な発見

6Bパラメータの検証モデルが、GSM8Kで175Bのファインチューニドモデルを上回り、モデルサイズを30倍に増加させたのと同等の性能向上を達成する。
検証はファインチューニングよりもデータに伴ってより効果的にスケーリングされ、訓練データが増加するにつれて性能向上が継続的に見られる。
ドロップアウトはファインチューニングと検証の両方の性能を顕著に向上させ、特に解答レベルの検証モデルで最も大きな向上が観察される。
上位順位の解答の多数決を取ることで性能がさらに向上し、最適な投票閾値は生成された完了数に依存する。
1問題あたり約400の完了を生成すると性能がピークに達し、それ以上になると悪意のある解答が結果を劣化させるようになる。
トークンレベルの検証モデルは、解答レベルの検証モデルよりも本質的に過学習に対して頑健であり、ドロップアウトの恩恵はこの場合僅かである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。