QUICK REVIEW

[論文レビュー] Generative Language Modeling for Automated Theorem Proving

Stanislas Polu, Ilya Sutskever|arXiv (Cornell University)|Sep 7, 2020

Natural Language Processing Techniques参考文献 41被引用数 44

ひとこと要約

この論文はデコーダーのみのトランスフォーマーを用いて Metamath の証明ステップを生成させ、数学データでの事前学習と合成データ拡張が自動定理証明を改善することを示し、最良のモデルは set.mm における証明完遂の最先端を達成し、形式的コミュニティに採用される証明を生成できる。

ABSTRACT

We explore the application of transformer-based language models to automated theorem proving. This work is motivated by the possibility that a major limitation of automated theorem provers compared to humans -- the generation of original mathematical terms -- might be addressable via generation from language models. We present an automated prover and proof assistant, GPT-f, for the Metamath formalization language, and analyze its performance. GPT-f found new short proofs that were accepted into the main Metamath library, which is to our knowledge, the first time a deep-learning based system has contributed proofs that were adopted by a formal mathematics community.

研究の動機と目的

形式言語（Metamath）における生成的事前学習が自動定理証明性能を向上させることを示す。
小規模な証明データセットにおけるモデルサイズが証明探索能力に与える影響を評価する。
自己改善を可能にする学習済み値関数を用いた反復トレーニングで証明探索を誘導する。
数学中心データに対する事前学習と汎用ウェブデータの影響を prover 性能において評価する。
合成データ拡張が小型モデルの性能を向上させ、妥当性を損なわないことを示す。

提案手法

デコーダーだけのトランスフォーマー（最大36層、774Mパラメータ）を用いて Metamath 証明における GOAL 然 PROOFSTEP を生成する。
データを GOAL <GOAL> PROOFSTEP <PROOFSTEP> の形式に整え、条件付き言語モデリング目的で訓練する。
最も有望な目標をサンプリングで展開し、段階ごとに e タクティクスを用いて d 段階まで探索する証明探索ループを維持する。
エンドツーエンド評価のために Python ベースの Metamath 検証器と互換性のある証明探索カーネルを実装する。
子目標処理を改善するために算術・環代数の証明を生成する合成データセットで訓練データを拡張する。
学習済み値関数 f_P を反復的に訓練し、目標が証明へ導くかどうかを予測して探索を誘導する（V を介して）。
モデルサイズ（160M、400M、700M、最大1.5B）と事前学習 regime（CommonCrawl、Github、WebMath）を横断して実験を行う。

実験結果

リサーチクエスチョン

RQ1数学中心データでの事前学習は、汎用テキストデータと比較して定理証明性能を向上させるか。
RQ2 Metamath のような形式的設定でモデルサイズが証明探索性能にどのように影響するか。
RQ3 学習済み値関数による反復的データ生成は証明探索を導き、結果を改善できるか。
RQ4 合成データ拡張は特に小型モデルの prover 性能にどのような影響を与えるか。
RQ5 GPT-f アプローチは保持された Metamath 証明の substantial な share を閉じることができるか。

主な発見

数学中心データでの事前学習は、一般的なウェブデータよりプローバの性能を向上させる。
モデルサイズは性能と正の相関を持ち、より大きなモデルほど証明探索率が高い。
学習済み値関数を用いた反復データ生成は、ポリシーのみの訓練よりもプローバ性能を改善する。
合成データ拡張は大型モデルで有意な利点を提供し、小型モデルでは利益が縮小または混在する。
最良モデルは有効集合で 31.58% を達成し、この設定で Metamath の証明完遂における最先端性能を示す。
700M モデル（WebMath で事前学習した場合は 42.56%）において、テスト regime の中で WebMath データ事前学習が最も高い性能向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。