Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Prove Theorems via Interacting with Proof Assistants

Kaiyu Yang, Jia Deng|arXiv (Cornell University)|May 21, 2019
Software Engineering Research被引用数 24
ひとこと要約

本稿では、71,000件の人が書いたCoq証明から構成される大規模なデータセットCoqGymと、証明支援ツールとの対話の自動化を目的とした深層学習モデルASTacticを紹介する。ASTacticは、証明戦略を抽象構文木(AST)として生成する。ASTacticは、自動化ツールが以前に証明できなかった新しい定理について12.2%の成功率を達成し、従来の手法よりも一般化能力と柔軟性が向上していることを示している。

ABSTRACT

Humans prove theorems by relying on substantial high-level reasoning and problem-specific insights. Proof assistants offer a formalism that resembles human mathematical reasoning, representing theorems in higher-order logic and proofs as high-level tactics. However, human experts have to construct proofs manually by entering tactics into the proof assistant. In this paper, we study the problem of using machine learning to automate the interaction with proof assistants. We construct CoqGym, a large-scale dataset and learning environment containing 71K human-written proofs from 123 projects developed with the Coq proof assistant. We develop ASTactic, a deep learning-based model that generates tactics as programs in the form of abstract syntax trees (ASTs). Experiments show that ASTactic trained on CoqGym can generate effective tactics and can be used to prove new theorems not previously provable by automated methods. Code is available at https://github.com/princeton-vl/CoqGym.

研究の動機と目的

  • 機械学習モデルの訓練に適した大規模かつ多様なデータセットが、インタラクティブ定理証明(ITP)分野で不足している問題に対処すること。
  • 従来のモデルが固定語彙に依存するため、柔軟性に制限がある問題を克服すること。
  • 深層学習モデルが、抽象構文木(AST)としてモデル化することで、未知語彙の新しい戦略を生成できる手法を開発すること。
  • モデルの多様な数学的およびプログラミング言語分野への一般化能力を評価すること。

提案手法

  • 123のオープンソースCoqプロジェクトから得た71,000件の人が書いた証明を収集した、CoqGymというデータセットを構築。数学、ハードウェア、プログラミング言語など多様な分野をカバーする。
  • 元の証明の途中の目標から得られる合成的証明をデータセットに追加し、証明の長さを制御可能にし、追加の学習データを提供する。
  • 文脈自由文法と実行時トークンの利用可能性を用いて、ASTとして戦略を生成する深層学習モデルASTacticを設計。
  • 入力の目標と前提から、AST構造のモデリングを含むシーケンス・ツー・シーケンスフレームワークを用いて、戦略のASTを予測するようにASTacticを学習。
  • 事前に定義された文法を用いることで、構文的に正しい生成を保証し、固定語彙の制限を超えた複雑な合成戦略の生成を可能にする。
  • 訓練中に見つけていない新しい定理を証明する能力を評価し、Coq環境における証明完了の有無で成功を測定する。

実験結果

リサーチクエスチョン

  • RQ1大規模かつ多様な人が書いた証明のデータセットで訓練された深層学習モデルは、以前に自動化ツールで証明できなかった新しい定理を証明できるか?
  • RQ2ASTベースの戦略生成は、固定された事前定義されたコマンドの集合に制限されない柔軟な、未知語彙の戦略を生成できるか?
  • RQ3ASTacticは、自然な証明支援ツールの操作から、帰納法、置換、単純化といった高レベルの証明戦略をどれだけ効果的に学習できるか?
  • RQ4広範なデータセットで学習した場合、算術、代数、型理論といった異なる分野にわたって、モデルの一般化能力はどの程度向上するか?
  • RQ5途中の目標から得られる合成的証明は、学習された証明エージェントのデータ効率と一般化能力を向上させることができるか?

主な発見

  • ASTacticは、自動化手法が以前に証明できなかった新しい定理について12.2%の成功率を達成し、学習データを超えた効果的な一般化を示している。
  • モデルは戦略を構造的なASTとして生成するため、固定語彙に縛られない複雑な合成戦略を生成でき、柔軟性が向上している。
  • 123の多様なプロジェクトから得た71,000件の証明を含むCoqGymは、従来のデータセットよりもはるかに大規模かつ多様なベンチマークを提供し、モデルの強固な訓練を可能にしている。
  • 途中の目標から得た合成的証明は、データ効率を向上させ、より短く効率の良い証明経路の学習を支援する。
  • このアプローチにより、自然な証明支援ツールの操作から、帰納法、置換、単純化といった高レベルの証明戦略をモデルが学習できるようになった。
  • CoqGymデータセットの規模と多様性のおかげで、モデルは従来の手法を上回るクロスドメイン一般化能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。