QUICK REVIEW

[論文レビュー] HOList: An Environment for Machine Learning of Higher-Order Theorem Proving

Kshitij Bansal, Sarah M. Loos|arXiv (Cornell University)|Apr 5, 2019

Logic, programming, and type systems参考文献 46被引用数 19

ひとこと要約

HOListは、HOL Lightに基づく高階論理定理証明のための強化学習環境とベンチマークを導入し、ディープラーニング駆動の自動定理証明を可能にする。システムDeepHOLは、29,462個の定理からなる大規模なコーパス上で、タクティックレベルの行動空間とカリキュラム学習を用いた深層強化学習により、訓練セットの58％を証明した。

ABSTRACT

We present an environment, benchmark, and deep learning driven automated theorem prover for higher-order logic. Higher-order interactive theorem provers enable the formalization of arbitrary mathematical theories and thereby present an interesting, open-ended challenge for deep learning. We provide an open-source framework based on the HOL Light theorem prover that can be used as a reinforcement learning environment. HOL Light comes with a broad coverage of basic mathematical theorems on calculus and the formal proof of the Kepler conjecture, from which we derive a challenging benchmark for automated reasoning. We also present a deep reinforcement learning driven automated theorem prover, DeepHOL, with strong initial results on this benchmark.

研究の動機と目的

既存の定理証明システムにおける断片化を解消するため、高階論理定理証明のための統合的でオープンソースの強化学習環境を構築すること。
ケプラー予想のHOL Lightによる形式的定式化および関連数学に基づく大規模で実用的なベンチマークを確立すること。
模倣学習と強化学習を通じてタクティック選択と引数ランク付けを学習可能な、ディープラーニング駆動の自動定理証明者DeepHOLを開発すること。
モジュラーAPIと証明管理ツールを公開することで、AI駆動の形式的推論分野における再現可能でスケーラブルな研究を可能にすること。
ニューラルネットワークが手動で設計されたヒューリスティクスに依存せずに、複雑で現実世界の形式的数学において競争力のある性能を達成できることを示すこと。

提案手法

強化学習統合のための安定したPython APIを備えた、HOL Light定理証明者の拡張版としてフレームワークを構築した。
証明はタクティック適用の系列として表現され、各アクションはタクティックとその引数で定義され、証明戦略のエンドツーエンド学習を可能にする。
128フィルタープレイヤーごとに、WaveNetに類似したアーキテクチャを採用した深層ニューラルネットワークを、模倣学習と強化学習を用いて次のタクティックとその引数を予測するように訓練した。
強化学習ループでは、1,000コアの分散証明探索を用い、タイムアウトは300秒、1定理あたり100の探索証明状態を扱った。
引数ランク付けの3つのバリエーション（タクティック非依存、タクティック依存、サブゴールレベル探索）を検討し、証明カバレッジへの影響を評価した。
効率的な証明探索のため、事前に定理埋め込みを計算し、証明探索の多様性を高めるためにランダム化されたプローバーハイパーパrameterを用いた。

実験結果

リサーチクエスチョン

RQ1タクティックレベルのアクションのみを用いて、スケール的に高階論理における定理証明を学習できる深層強化学習エージェントは存在するか？
RQ2引数ランク付け戦略の選択（タクティック非依存対タクティック依存）が、証明カバレッジと学習効率に与える影響はいかほどか？
RQ3人間の証明で学習したニューラルネットワークは、ケプラー予想のような大規模で現実世界の形式的定式化において、新しい定理を証明できるか？
RQ4カリキュラム学習と分散証明探索は、ニューラル定理証明者の性能をどの程度向上させ得るか？
RQ5完全にエンドツーエンドで学習された証明者は、より複雑な最新の自動定理証明者と比較して、競争力のある性能を達成できるか？

主な発見

『Loop』強化学習設定では、訓練セットの10,199定理のうち5,679定理（55.7％）を証明し、複雑な形式的数学における強力な一般化能力を示した。
『Loop tactic dependent』バージョンは5,518証明（54.1％）を達成し、タクティックに依存する引数選択が学習効率を向上させることを示した。
『Loop on subgoals』バージョンは1,988定理（19.5％）を証明したが、メインループを上回らなかったため、この設定ではサブゴールレベルの学習に限界があることが示唆された。
最終モデルは、Flyspeckデータセットの2,000定理のホールドアウトサンプルで37.0％の証明成功率を達成し、強力なゼロショット一般化能力を示した。
コアと複雑なコーパスの和集合では5,919証明（訓練セットの58.0％）を達成し、多様な数学的分野にわたるスケーラビリティを示した。
事前に計算された定理埋め込みとランダム化されたプローバーハイパーパrameterの使用は、証明探索を顕著に加速させるとともに、証明の多様性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。