Skip to main content
QUICK REVIEW

[论文解读] INT: An Inequality Benchmark for Evaluating Generalization in Theorem Proving

Yuhuai Wu, Albert Qiaochu Jiang|arXiv (Cornell University)|May 3, 2021
Topic Modeling参考文献 60被引用 11
一句话总结

本文提出了INT,一个理论上无限的不等式定理证明基准,旨在评估学习辅助定理证明中的泛化能力。通过定理生成器,INT能够衡量六种不同的泛化类型,并对变换器(transformers)和图神经网络(GNNs)进行评估,发现尽管变换器在测试任务上表现更优,但其分布外差距大于GNNs,且在测试时使用蒙特卡洛树搜索(MCTS)能显著提升定理证明的成功率。

ABSTRACT

In learning-assisted theorem proving, one of the most critical challenges is to generalize to theorems unlike those seen at training time. In this paper, we introduce INT, an INequality Theorem proving benchmark designed to test agents’ generalization ability. INT is based on a theorem generator, which provides theoretically infinite data and allows us to measure 6 different types of generalization, each reflecting a distinct challenge, characteristic of automated theorem proving. In addition, provides a fast theorem proving environment with sequence-based and graph-based interfaces, conducive to performing learning-based research. We introduce base-lines with architectures including transformers and graph neural networks (GNNs)for INT. Using INT, we find that transformer-based agents achieve stronger test performance for most of the generalization tasks, despite having much larger out-of-distribution generalization gaps than GNNs. We further find that the addition of Monte Carlo Tree Search (MCTS) at test time helps to prove new theorems.

研究动机与目标

  • 为解决学习辅助定理证明中泛化问题的关键挑战,特别是针对训练期间未见过的定理。
  • 设计一个支持理论上无限训练数据的基准,以系统性地评估多种泛化类型。
  • 提供一个快速、灵活的证明环境,支持基于序列和基于图的接口,以支持基于学习的定理证明研究。
  • 评估如变换器和GNN等神经架构在未见不等式定理上的性能与泛化行为。
  • 研究测试时搜索算法(如蒙特卡洛树搜索)对证明新定理的影响。

提出的方法

  • 该基准由一个定理生成器驱动,可生成理论上无限的不等式定理,从而实现对六种不同泛化类型的受控评估。
  • 该环境支持基于序列和基于图的接口用于输入表示,促进多样化模型架构的应用。
  • 基线模型采用变换器和图神经网络(GNN)架构,以比较泛化性能。
  • 泛化能力在六种不同的分布偏移中进行测量,每种偏移反映了自动化定理证明中的不同挑战。
  • 测试时推理引入了蒙特卡洛树搜索(MCTS),以增强推理能力并提升对新定理的证明成功率。
  • 性能在分布内和分布外测试集上进行评估,以量化泛化差距。

实验结果

研究问题

  • RQ1与基于GNN的代理相比,基于变换器的代理在与训练时不同的不等式定理上的表现如何?
  • RQ2在INT基准上,不同神经架构的分布外泛化差距有多大?
  • RQ3在测试时引入蒙特卡洛树搜索在多大程度上提升了代理证明新、未见过定理的能力?
  • RQ4在定义的六类泛化类型中,哪一类对当前基于学习的代理构成最大挑战?
  • RQ5生成器提供的理论上无限的训练数据如何影响模型的泛化行为?

主要发现

  • 基于变换器的代理在大多数泛化任务上的整体测试表现优于GNNs。
  • 尽管测试表现更优,变换器在分布外的泛化差距显著大于GNNs。
  • 在测试时引入蒙特卡洛树搜索(MCTS)能显著提升代理证明新、此前未见过的定理的能力。
  • 定理生成器支持对六类不同泛化类型的系统性评估,每类均反映了自动化定理证明中的独特挑战。
  • 该基准环境支持基于序列和基于图的模型接口,实现高效训练与评估。
  • 结果揭示了在神经定理证明代理中,强域内性能与对分布偏移的鲁棒性之间存在权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。