Skip to main content
QUICK REVIEW

[论文解读] Learning to Reason in Large Theories without Imitation

Kshitij Bansal, Christian Szegedy|arXiv (Cornell University)|May 25, 2019
Logic, programming, and type systems参考文献 24被引用 18
一句话总结

本文提出了一种无需依赖人类提供证明的强化学习方法,用于在大型数学理论中实现自动定理证明。通过在探索阶段整合基于tf-idf的论据选择机制,该方法显著提升了证明发现能力,其性能接近于混合式模仿-强化学习系统。

ABSTRACT

In this paper, we demonstrate how to do automated theorem proving in the presence of a large knowledge base of potential premises without learning from human proofs. We suggest an exploration mechanism that mixes in additional premises selected by a tf-idf (term frequency-inverse document frequency) based lookup in a deep reinforcement learning scenario. This helps with exploring and learning which premises are relevant for proving a new theorem. Our experiments show that the theorem prover trained with this exploration mechanism outperforms provers that are trained only on human proofs. It approaches the performance of a prover trained by a combination of imitation and reinforcement learning. We perform multiple experiments to understand the importance of the underlying assumptions that make our exploration approach work, thus explaining our design choices.

研究动机与目标

  • 在无需人类提供证明的情况下,实现在大型数学理论中的自动定理证明。
  • 解决在大型知识库中高维论据选择的挑战,其中标准探索策略会失效。
  • 开发一种通过自生成数据学习有效论据选择的强化学习框架。
  • 评估是否基于简单且可解释的度量(如tf-idf)引导的探索能够优于仅模仿学习的定理证明方法。
  • 理解在复杂推理环境中实现成功零样本学习的设计选择。

提出的方法

  • 该方法采用深度强化学习,在大型数学论据知识库上训练定理证明器。
  • 提出一种混合探索策略,结合学习到的策略动作与基于tf-idf的论据检索,以在证明搜索过程中提升相关性。
  • tf-idf组件基于词频和逆文档频率选择候选论据,从而增强在高维论据空间中的探索能力。
  • 在论据选择过程中应用10%的词元丢弃,以增加探索过程的多样性。
  • 该方法在HOList环境中进行评估,HOList是针对HOL Light的强化学习设置,采用逐步增加证明难度的课程。
  • 模型通过与定理证明器的自我监督交互,同时学习策略选择和论据选择。

实验结果

研究问题

  • RQ1定理证明器是否能在无须访问人类证明的情况下,学习在大型数学理论中证明定理?
  • RQ2在强化学习用于定理证明时,将简单且非学习型度量(如tf-idf)整合到探索阶段是否能提升学习效率?
  • RQ3纯自我监督强化学习系统与使用人类证明训练的系统相比,性能如何?
  • RQ4在无任何人类数据的情况下,自举(bootstrapping)在实现成功学习中扮演什么角色?
  • RQ5在零样本定理证明中,论据选择在多大程度上是主要瓶颈?

主要发现

  • 在单个检查点上,仅使用零样本探索强化学习(Zero Explore RL)循环训练的模型证明了56.3%的定理,优于仅使用人类证明训练的模型所达到的49.95%。
  • Zero Explore方法实现了69.1%的累计定理证明成功率,接近于人类强化学习循环的最佳表现(64.1%)。
  • 该方法达到了人类强化学习循环性能的90%以上,表明在缺乏人类数据的情况下仍具备强大的可扩展性和泛化能力。
  • 消融研究显示,仅使用tf-idf的论据选择即可实现43%的累计成功率,显著优于随机选择,但在与强化学习探索结合时表现仍不及最优。
  • 在论据选择过程中引入10%的词元丢弃带来了微小但不可忽视的性能提升,表明探索多样性得到了改善。
  • Zero Reference基线(不使用任何探索机制且无任何人类数据)迅速停滞,凸显了在大型论据空间中进行引导式探索的必要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。