QUICK REVIEW
[論文レビュー] Holophrasm: a neural Automated Theorem Prover for higher-order logic
Daniel Whalen|arXiv (Cornell University)|Aug 8, 2016
Natural Language Processing Techniques参考文献 11被引用数 24
ひとこと要約
Holophrasmは、手作業で設計された特徴量を用いずに、深層学習と木構造のバンディット探索を用いて高階論理における定理を証明する、新しいニューラル自動定理証明者である。この手法は、Metamathのset.mmライブラリにおいて、行動列挙のための系列対系列モデル、関連性と報酬予測のためのニューラルネットワーク、UCTに類似した探索アルゴリズムを組み合わせることで、14.3%の成功率を達成した。
ABSTRACT
I propose a system for Automated Theorem Proving in higher order logic using deep learning and eschewing hand-constructed features. Holophrasm exploits the formalism of the Metamath language and explores partial proof trees using a neural-network-augmented bandit algorithm and a sequence-to-sequence model for action enumeration. The system proves 14% of its test theorems from Metamath's set.mm module.
研究の動機と目的
- 手作業で設計された特徴量を回避する、完全で非インタラクティブな高階論理向け自動定理証明者を開発すること。
- 深層学習が、Metamathの構造的・階層的な証明木における証明探索を効果的にモデル化できるかを検討すること。
- 系列対系列モデル、ニューラル関連性推定、木ベースのバンディット探索を統合することで、エンドツーエンドのニューラル手法が自動定理証明に実現可能であることを示すこと。
- 大規模な形式的数学コーパス、特にMetamathのset.mmモジュールを対象として、性能と一般化能力を評価すること。
提案手法
- Metamathの高階論理形式における部分証明木の探索に、ニューラルネットワークを補完するバンディットアルゴリズム(UCTの変種)を用いる。
- 無限に存在する可能性のある定理と置換の行動列挙に、系列対系列モデルを活用する。
- 文脈と式の類似性に基づき、ある目標を証明する際に定理が有用である可能性を推定する関連性ネットワークを適用する。
- 自由変数の正しい置換を予測する生成ネットワークを用い、精度向上のためビームサーチを実装する。
- 探索から得た正例と負例を用いて、提案された証明ステップが有効かどうかを分類する報酬ネットワークを訓練する。
- 探索中に木の簡約を統合することで、1つの行動が複数の部分木を持つことを可能とし、探索の効率性とカバー範囲を向上させる。
実験結果
リサーチクエスチョン
- RQ1手作業で設計された特徴量に依存せずに、深層学習ベースのシステムが高階論理における証明木の探索を効果的に行えるか。
- RQ2系列対系列モデルが、自動定理証明において有効で有用な定理と置換をどれほど正確に生成できるか。
- RQ3ニューラルネットワークが、形式的証明文脈において、潜在的な証明ステップの関連性と報酬をどれほど正確に推定できるか。
- RQ4ニューラルネットワークにガイドされた木ベースのバンディットアルゴリズムが、大規模な形式的数学コーパスで競争力のある証明探索性能を達成できるか。
- RQ5多様な数学的分野に一般化できる、完全でエンドツーエンドのニューラル自動定理証明者を訓練することが可能か。
主な発見
- Holophrasmは、Metamathのset.mmモジュールに含まれる2,720個のテスト定理のうち14.3%を証明し、未観測の命題においても14.3%の成功率を達成した。
- 関連性ネットワークは、関連する定理の選択において、トップ1で55.3%、トップ5で72.8%、トップ20で87.4%の精度を達成した。
- ビーム幅20を用いた場合、生成ネットワークはすべての自由変数の正しい置換を57.5%の精度で予測した。
- 報酬ネットワークは、テスト例において77.6%の分類精度を達成し、ベースラインの負例予測(62.1%)を顕著に上回った。
- 成功した場合の証明探索の中央値は17回の探索パスであり、効率的な収束を示している。
- 性能は初期の定理で最も高く、データベースの最初の457個のテスト定理において45.1%の成功率を示しており、単純または初期の証明に学習バイアスが生じている可能性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。