[論文レビュー] Formal Mathematics Statement Curriculum Learning
この論文は、専門家の反復(証明探索と学習の組み合わせ)によって、証明探索のみを用いた場合と比べて形式数学の証明生成を大幅に改善し、難易度の高い問題のカリキュラムを可能にし、厳選された問題セットを通じて miniF2F で最先端の成果を達成している。
We explore the use of expert iteration in the context of language modeling applied to formal mathematics. We show that at same compute budget, expert iteration, by which we mean proof search interleaved with learning, dramatically outperforms proof search only. We also observe that when applied to a collection of formal statements of sufficiently varied difficulty, expert iteration is capable of finding and solving a curriculum of increasingly difficult problems, without the need for associated ground-truth proofs. Finally, by applying this expert iteration to a manually curated set of problem statements, we achieve state-of-the-art on the miniF2F benchmark, automatically solving multiple challenging problems drawn from high school olympiads.
研究の動機と目的
- 正式数学における自動推論を動機づけ、証明環境における無限の作用空間と自己プレイの欠如という課題に対処する。
- GPT-f スタイルのモデルを用いて証明探索と学習を織り交ぜる専門家の反復フレームワークを提案・評価する。
- 難易度が異なる形式命題の補助集合が、易しい証明から難しい証明へと導くカリキュラムを生み出せることを示す。
- 選定された命題カリキュラムと合成問題生成を通じて miniF2F ベンチマークで改善を示す。
提案手法
- 証明手順 (proofstep) と証明サイズ (proofsize) の目的で訓練されたデコーダー専用トランスフォーマー(約774Mパラメータ)を使用する。
- データ収集と対話のための Lean 定理支 prover インターフェイスとして lean-gym を導入する。
- ブートストラッピング: ウェブ規模データで事前訓練し、次に mathlib のタクティックデータで微調整し、データセットを混合する。
- 専門家の反復を適用し、証明探索を反復的にサンプリングし、成功した証明と proofsize データを抽出して基モデルからファインチューニングする。
- 制御された難易度 (N_D, N_S) を持つカリキュラム synth-ineq を作成するための合成不等式ジェネレータを開発する。
- miniF2F カリキュラム (miniF2F-curriculum) を作成し、mathlib/synth-ineq と組み合わせて miniF2F への転送を図る。
実験結果
リサーチクエスチョン
- RQ1固定された計算資源の下で、専門家の反復は純粋な証明探索を上回ることができるのか?
- RQ2訓練と証明探索を織り交ぜることは、正解証明なしで難易度が上がるカリキュラムの解決を可能にするか?
- RQ3厳選された命題カリキュラムと合成命題カリキュラムは、分布外の miniF2F 問題への改善をどの程度転移できるか?
主な発見
- 専門家の反復は同じ計算予算で証明探索のみと比べて証明成功率を大幅に向上させる。
- 自動生成と手動で整えられた命題から構成されたカリキュラムは、モデルがますます難しい問題を解くことを可能にする。
- 完全なカリキュラム転移(mathlib-train + synth-ineq + miniF2F-curriculum)は miniF2F-valid で最先端の結果を生み、miniF2F-test の性能を向上させる。
- 本手法は mathlib-valid での高い性能を達成し、AMC12 および AIME 風の問題をいくつか解くことを含み、miniF2F ベンチマークにおける従来のベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。