QUICK REVIEW

[论文解读] Learning to Reason in Large Theories without Imitation

Kshitij Bansal, Christian Szegedy|arXiv (Cornell University)|May 25, 2019

Logic, programming, and type systems参考文献 24被引用 18

一句话总结

本文提出了一种无需依赖人类提供证明的强化学习方法，用于在大型数学理论中实现自动定理证明。通过在探索阶段整合基于tf-idf的论据选择机制，该方法显著提升了证明发现能力，其性能接近于混合式模仿-强化学习系统。

ABSTRACT

In this paper, we demonstrate how to do automated theorem proving in the presence of a large knowledge base of potential premises without learning from human proofs. We suggest an exploration mechanism that mixes in additional premises selected by a tf-idf (term frequency-inverse document frequency) based lookup in a deep reinforcement learning scenario. This helps with exploring and learning which premises are relevant for proving a new theorem. Our experiments show that the theorem prover trained with this exploration mechanism outperforms provers that are trained only on human proofs. It approaches the performance of a prover trained by a combination of imitation and reinforcement learning. We perform multiple experiments to understand the importance of the underlying assumptions that make our exploration approach work, thus explaining our design choices.

研究动机与目标

在无需人类提供证明的情况下，实现在大型数学理论中的自动定理证明。
解决在大型知识库中高维论据选择的挑战，其中标准探索策略会失效。
开发一种通过自生成数据学习有效论据选择的强化学习框架。
评估是否基于简单且可解释的度量（如tf-idf）引导的探索能够优于仅模仿学习的定理证明方法。
理解在复杂推理环境中实现成功零样本学习的设计选择。

提出的方法

该方法采用深度强化学习，在大型数学论据知识库上训练定理证明器。
提出一种混合探索策略，结合学习到的策略动作与基于tf-idf的论据检索，以在证明搜索过程中提升相关性。
tf-idf组件基于词频和逆文档频率选择候选论据，从而增强在高维论据空间中的探索能力。
在论据选择过程中应用10%的词元丢弃，以增加探索过程的多样性。
该方法在HOList环境中进行评估，HOList是针对HOL Light的强化学习设置，采用逐步增加证明难度的课程。
模型通过与定理证明器的自我监督交互，同时学习策略选择和论据选择。

实验结果

研究问题

RQ1定理证明器是否能在无须访问人类证明的情况下，学习在大型数学理论中证明定理？
RQ2在强化学习用于定理证明时，将简单且非学习型度量（如tf-idf）整合到探索阶段是否能提升学习效率？
RQ3纯自我监督强化学习系统与使用人类证明训练的系统相比，性能如何？
RQ4在无任何人类数据的情况下，自举（bootstrapping）在实现成功学习中扮演什么角色？
RQ5在零样本定理证明中，论据选择在多大程度上是主要瓶颈？

主要发现

在单个检查点上，仅使用零样本探索强化学习（Zero Explore RL）循环训练的模型证明了56.3%的定理，优于仅使用人类证明训练的模型所达到的49.95%。
Zero Explore方法实现了69.1%的累计定理证明成功率，接近于人类强化学习循环的最佳表现（64.1%）。
该方法达到了人类强化学习循环性能的90%以上，表明在缺乏人类数据的情况下仍具备强大的可扩展性和泛化能力。
消融研究显示，仅使用tf-idf的论据选择即可实现43%的累计成功率，显著优于随机选择，但在与强化学习探索结合时表现仍不及最优。
在论据选择过程中引入10%的词元丢弃带来了微小但不可忽视的性能提升，表明探索多样性得到了改善。
Zero Reference基线（不使用任何探索机制且无任何人类数据）迅速停滞，凸显了在大型论据空间中进行引导式探索的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。