QUICK REVIEW

[论文解读] HOList: An Environment for Machine Learning of Higher-Order Theorem Proving

Kshitij Bansal, Sarah M. Loos|arXiv (Cornell University)|Apr 5, 2019

Logic, programming, and type systems参考文献 46被引用 19

一句话总结

HOList 在 HOL Light 的基础上引入了一个用于高阶定理证明的强化学习环境与基准测试，支持基于深度学习的自动化定理证明。该系统 DeepHOL 在包含 29,462 个定理的大规模语料库上表现优异，通过深度强化学习结合策略级动作空间与课程学习，成功证明了 58% 的训练集定理。

ABSTRACT

We present an environment, benchmark, and deep learning driven automated theorem prover for higher-order logic. Higher-order interactive theorem provers enable the formalization of arbitrary mathematical theories and thereby present an interesting, open-ended challenge for deep learning. We provide an open-source framework based on the HOL Light theorem prover that can be used as a reinforcement learning environment. HOL Light comes with a broad coverage of basic mathematical theorems on calculus and the formal proof of the Kepler conjecture, from which we derive a challenging benchmark for automated reasoning. We also present a deep reinforcement learning driven automated theorem prover, DeepHOL, with strong initial results on this benchmark.

研究动机与目标

创建一个统一的、开源的强化学习环境，用于高阶定理证明，以解决现有定理证明系统之间的碎片化问题。
基于 HOL Light 对开普勒猜想及其相关数学的正式化，建立一个大规模、实用的基准测试。
开发一个基于深度学习的自动化定理证明器 DeepHOL，能够通过模仿学习与强化学习掌握策略选择与参数排序。
通过提供模块化 API 与证明管理工具，实现可复现、可扩展的 AI 驱动形式化推理研究。
证明神经网络可在不依赖手工设计启发式规则的情况下，实现与复杂最先进的自动化定理证明器相当的性能。

提出的方法

该框架基于经过增强的 HOL Light 定理证明器构建，提供稳定的 Python API 以支持强化学习集成。
证明被表示为策略应用的序列，每个动作由一个策略及其参数定义，从而实现对证明策略的端到端学习。
训练一个基于 WaveNet 类架构（每层 128 个滤波器）的深度神经网络，通过模仿学习与强化学习预测下一个策略及其参数。
强化学习循环采用在 1,000 个核心上并行执行的证明搜索，每个定理的超时时间为 300 秒，每一定理探索 100 个证明状态。
探索了三种参数排序变体：与策略无关、与策略相关以及子目标级搜索，以评估其对证明覆盖率的影响。
系统预先计算定理嵌入以提升证明搜索效率，并通过随机化证明器超参数以增加证明多样性。

实验结果

研究问题

RQ1一个深度强化学习智能体是否能仅通过策略级动作，在大规模高阶逻辑中学会证明定理？
RQ2参数排序策略的选择——与策略无关 vs. 与策略相关——如何影响证明覆盖率与学习效率？
RQ3在人类证明上进行训练的神经网络，是否能泛化到在开普勒猜想这类大规模真实形式化系统中证明新定理？
RQ4课程学习与分布式证明搜索在多大程度上能提升神经网络定理证明器的性能？
RQ5一个完全端到端学习的证明器是否能与更复杂的最先进自动化定理证明器相媲美？

主要发现

在 'Loop' 强化学习设置下，成功证明了 10,199 个训练集定理中的 5,679 个（55.7%），表明在复杂形式化数学中具有强大的泛化能力。
'Loop tactic dependent' 变体证明了 5,518 个定理（54.1%），表明策略感知的参数选择可提升学习效率。
'Loop on subgoals' 变体证明了 1,988 个定理（19.5%），但未优于主循环，表明在此设置下子目标级训练的收益有限。
最终模型在 Flyspeck 数据集中 2,000 个保留样本上的证明成功率达到 37.0%，表明具备强大的零样本泛化能力。
在核心与复杂语料库的并集上，系统共证明了 5,919 个定理（占训练集的 58.0%），表明其在多样化数学领域中具备良好的可扩展性。
使用预计算的定理嵌入与随机化证明器参数显著加速了证明搜索并提升了证明多样性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。