QUICK REVIEW

[论文解读] Learning to Prove Theorems via Interacting with Proof Assistants

Kaiyu Yang, Jia Deng|arXiv (Cornell University)|May 21, 2019

Software Engineering Research被引用 24

一句话总结

本文提出了 CoqGym，一个包含 71,000 个由人类编写的 Coq 证明的大规模数据集，以及 ASTactic，一种通过抽象语法树（AST）生成证明策略的深度学习模型，以实现与证明助手的自动化交互。ASTactic 在此前自动化工具无法证明的新定理上实现了 12.2% 的成功率，表明其在泛化能力和灵活性方面优于先前的方法。

ABSTRACT

Humans prove theorems by relying on substantial high-level reasoning and problem-specific insights. Proof assistants offer a formalism that resembles human mathematical reasoning, representing theorems in higher-order logic and proofs as high-level tactics. However, human experts have to construct proofs manually by entering tactics into the proof assistant. In this paper, we study the problem of using machine learning to automate the interaction with proof assistants. We construct CoqGym, a large-scale dataset and learning environment containing 71K human-written proofs from 123 projects developed with the Coq proof assistant. We develop ASTactic, a deep learning-based model that generates tactics as programs in the form of abstract syntax trees (ASTs). Experiments show that ASTactic trained on CoqGym can generate effective tactics and can be used to prove new theorems not previously provable by automated methods. Code is available at https://github.com/princeton-vl/CoqGym.

研究动机与目标

为解决交互式定理证明（ITP）中用于训练机器学习模型的大规模、多样化数据集的缺乏问题。
克服先前模型在证明策略生成方面灵活性有限的问题，这些模型依赖于固定的词汇表。
开发一种方法，使深度学习模型能够通过将策略建模为抽象语法树（AST）来生成新颖的、词汇外的证明策略。
评估模型在数学和编程语言等多个不同领域之间泛化的能力。

提出的方法

构建 CoqGym，一个来自 123 个开源 Coq 项目的 71,000 个由人类编写的证明数据集，涵盖数学、硬件和编程语言等多个不同领域。
通过原始证明中的中间目标生成合成证明，以增强数据集，实现可控的证明长度和额外的训练数据。
设计 ASTactic，一种使用上下文无关语法和运行时标记可用性的深度学习模型，以 AST 形式生成证明策略。
采用序列到序列框架并建模 AST 结构，训练 ASTactic 从输入目标和前提预测证明策略的 AST。
使用预定义的语法确保语法正确性，并支持生成超越固定词汇集的复杂复合策略。
在模型无法在训练期间见过的新定理上评估其证明能力，通过 Coq 环境中的证明完成情况来衡量成功率。

实验结果

研究问题

RQ1在大规模、多样化的人类编写证明数据集上进行训练的深度学习模型，能否泛化到证明此前自动化方法无法证明的新定理？
RQ2基于 AST 的策略生成能否产生灵活的、词汇外的策略，而不受预定义命令固定集合的限制？
RQ3ASTactic 在从自然的证明助手交互中学习高阶证明策略（如归纳法、重写和简化）方面的有效性如何？
RQ4当在广泛的数据集上进行训练时，该模型在不同领域（如算术、代数和类型论）之间的泛化程度如何？
RQ5从中间目标生成的合成证明能否提升学习到的证明代理的样本效率和泛化能力？

主要发现

ASTactic 在此前自动化方法无法证明的新定理上实现了 12.2% 的成功率，表明其在训练数据之外具有有效的泛化能力。
该模型以结构化的 AST 形式生成策略，能够创建复杂且复合的策略，不受固定词汇表的限制，从而提升了灵活性。
CoqGym 包含来自 123 个多样化项目的 71,000 个证明，其规模和多样性远超以往数据集，为模型训练提供了更强大的基准。
从中间目标生成的合成证明提升了数据效率，并帮助模型学习更短、更高效的证明路径。
该方法使模型能够从自然的证明助手交互中学习高阶证明策略，如归纳法、重写和简化。
由于 CoqGym 数据集的规模和多样性，该模型在跨领域泛化方面优于先前的方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。