Skip to main content
QUICK REVIEW

[论文解读] Generative Language Modeling for Automated Theorem Proving

Stanislas Polu, Ilya Sutskever|arXiv (Cornell University)|Sep 7, 2020
Natural Language Processing Techniques参考文献 41被引用 44
一句话总结

本论文训练解码器式 Transformer 模型以生成 Metamath 的证明步骤,展示在数学数据上的预训练和合成数据增强可提升自动定理证明;最佳模型在 set.mm 上达到最先进的证明完成水平,并且能够生成被形式化社区采用的证明。

ABSTRACT

We explore the application of transformer-based language models to automated theorem proving. This work is motivated by the possibility that a major limitation of automated theorem provers compared to humans -- the generation of original mathematical terms -- might be addressable via generation from language models. We present an automated prover and proof assistant, GPT-f, for the Metamath formalization language, and analyze its performance. GPT-f found new short proofs that were accepted into the main Metamath library, which is to our knowledge, the first time a deep-learning based system has contributed proofs that were adopted by a formal mathematics community.

研究动机与目标

  • 证明生成式预训练能在形式语言(Metamath)中提升自动定理证明的性能。
  • 评估模型大小对在小型证明数据集上寻找证明能力的影响。
  • 探索带学习值函数的迭代训练以引导证明搜索并实现自我提升。
  • 评估在数学专注数据上的预训练相对于通用网络数据对证明器性能的影响。
  • 表明合成数据增强可以在不损害有效性的前提下提升较小模型的性能。

提出的方法

  • 使用解码器为先的 Transformer(最多36层,774M 参数)在 Metamath-proof 中给出 GOAL 时生成 PROOFSTEP。
  • 将数据格式化为 GOAL <GOAL> PROOFSTEP <PROOFSTEP>,并使用条件语言模型目标进行训练。
  • 维持一个证明搜索循环,通过每步采样 e 策略来扩展最有希望的目标,并探索最多 d 步。
  • 实现一个基于 Python 的 Metamath 验证器以及一个兼容的证明搜索内核用于端到端评估。
  • 用生成算术和环代数证明的合成数据集来扩充训练数据,以改善子目标处理。
  • 迭代训练一个学习的值函数 f_P,预测一个目标是否导出证明,并用它来引导搜索(通过 V)。
  • 在模型大小(160M、400M、700M、高达 1.5B)和预训练方案(CommonCrawl、Github、WebMath)之间进行实验。

实验结果

研究问题

  • RQ1在数学专注数据上的预训练是否比通用文本数据提升定理证明性能?
  • RQ2在像 Metamath 这样的正式环境中,模型大小如何影响寻找证明的性能?
  • RQ3带学习值函数的迭代数据生成能否引导证明搜索以改善结果?
  • RQ4合成数据增强对证明器性能的影响是什么,特别是对较小的模型?
  • RQ5GPT-f 方法是否有能力覆盖相当大比例的未包含的 Metamath 证明?

主要发现

  • 在数学专注数据上的预训练比通用网络数据为证明器带来更好表现。
  • 模型大小与性能呈正相关,较大模型实现更高的找证明率。
  • 带学习值函数的迭代数据生成在证明器性能上优于仅策略训练。
  • 合成数据增强为较大模型带来可衡量的提升,而对较小模型的收益减少或混合。
  • 最佳模型在验证集上达到 31.58%,并在该设置下展示了 Metamath 证明完成的最先进性能。
  • 对于 700M 模型,在测试的方案中,预训练 WebMath 数据在性能提升方面最高(WebMath 预训练 700M 的 42.56%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。