Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Reason in Large Theories without Imitation

Kshitij Bansal, Christian Szegedy|arXiv (Cornell University)|May 25, 2019
Logic, programming, and type systems参考文献 24被引用数 18
ひとこと要約

本論文は、人間が提供する証明に依存せずに、大規模な数学的理論における自動定理証明のための強化学習手法を提案する。探索段階にtf-idfに基づく前提選択メカニズムを統合することで、模倣学習のみに依存する手法と比較して、証明の発見が著しく向上し、ハイブリッド模倣・強化学習システムの性能に近づく。

ABSTRACT

In this paper, we demonstrate how to do automated theorem proving in the presence of a large knowledge base of potential premises without learning from human proofs. We suggest an exploration mechanism that mixes in additional premises selected by a tf-idf (term frequency-inverse document frequency) based lookup in a deep reinforcement learning scenario. This helps with exploring and learning which premises are relevant for proving a new theorem. Our experiments show that the theorem prover trained with this exploration mechanism outperforms provers that are trained only on human proofs. It approaches the performance of a prover trained by a combination of imitation and reinforcement learning. We perform multiple experiments to understand the importance of the underlying assumptions that make our exploration approach work, thus explaining our design choices.

研究の動機と目的

  • 人間が提供する証明が不要な大規模な数学的理論における自動定理証明を可能にすること。
  • 標準的な探索戦略が失敗するような、高次元の前提選択の課題に対処すること。
  • 自己生成データを通じて効果的な前提選択を学習する強化学習フレームワークを開発すること。
  • 単純で解釈可能な指標(例:tf-idf)による探索が、定理証明における模倣学習のみに依存する手法を上回るかを評価すること。
  • 複雑な推論環境におけるゼロショット学習に成功するための設計選択の役割を理解すること。

提案手法

  • 本手法は、大規模な数学的前提の知識ベース上で、深層強化学習を用いて定理証明者を訓練する。
  • 学習済みポリシー行動とtf-idfに基づく前提検索を組み合わせたハイブリッド探索戦略を導入し、証明探索中の関連性を向上させる。
  • tf-idf部は、項の頻度と逆文書頻度に基づいて候補となる前提を選択し、高次元の前提空間における探索を強化する。
  • 探索プロセスの多様性を高めるために、前提選択時に10%のトークンドロップアウトを適用する。
  • 本手法は、HOL Light用の強化学習環境であるHOList環境で評価され、徐々に難易度が上がるカリキュラムを用いる。
  • モデルは、定理証明者との自己教師付き相互作用を通じて、戦術選択と前提選択の両方を学習する。

実験結果

リサーチクエスチョン

  • RQ1人間の証明にアクセスできない状況でも、定理証明者が大規模な数学的理論で定理を証明できるか?
  • RQ2探索段階に単純で学習しない指標(例:tf-idf)を統合することで、定理証明のための強化学習の学習効率が向上するか?
  • RQ3人間の証明で訓練されたシステムと比較して、純粋に自己教師付きRLシステムの性能はどの程度か?
  • RQ4人間データが利用できない状況で、ブートストラップはどのように学習の成功に寄与するか?
  • RQ5ゼロショット定理証明において、前提選択は主なボトルネックであるとまでは言えるか?

主な発見

  • 人間の証明を一切使用しない「ゼロエクスプロアRLループ」は、1つのチェックポイントで56.3%の定理を証明に成功させ、人間の証明のみで訓練されたモデルの49.95%を上回った。
  • ゼロエクスプロアアプローチは、累積的に69.1%の定理証明成功率を達成し、最良の人間RLループの64.1%に近づいた。
  • 人間のデータが存在しない状況でも、強力なスケーラビリティと一般化性能を示しており、人間RLループの90%以上の性能に達した。
  • アブレーションスタディの結果、tf-idfに基づく前提選択のみで43%の累積的成功率を達成し、ランダム選択を著しく上回ったが、RL探索と組み合わせた場合に比べて性能は劣った。
  • 前提選択時に10%のトークンドロップアウトを導入することで、わずかではあるが無視できない性能向上が得られ、探索の多様性が向上した。
  • ゼロリファレンスベースライン(探索メカニズムも人間データも使用しない)は、すぐに停滞したため、大規模な前提空間においてはガイド付き探索の必要性が明確になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。