Skip to main content
QUICK REVIEW

[论文解读] DeepMath - Deep Sequence Models for Premise Selection

Alex Alemi, François Chollet|arXiv (Cornell University)|Jun 14, 2016
Topic Modeling参考文献 33被引用 116
一句话总结

本文证明深度神经序列模型在大规模自动定理证明中能够有效执行前提选择,优于手工特征基线,并通过集成得到互补。

ABSTRACT

We study the effectiveness of neural sequence models for premise selection in automated theorem proving, one of the main bottlenecks in the formalization of mathematics. We propose a two stage approach for this task that yields good results for the premise selection task on the Mizar corpus while avoiding the hand-engineered features of existing state-of-the-art models. To our knowledge, this is the first time deep learning has been applied to theorem proving on a large scale.

研究动机与目标

  • 将前提选择确立为大规模自动定理证明的瓶颈并进行动机阐述。
  • 开发从形式化证明中学习的神经模型,无需手工设计特征。
  • 提出一种两阶段嵌入方法,其中包含具备定义感知的嵌入,以提升符号泛化能力。
  • 在 Mizar / Mizar Library 语料库上评估神经前提选择器,并与手工特征基线进行比较。

提出的方法

  • 将猜想和公理表示为阶段特定神经网络生成的嵌入(字符级或词级)。
  • 训练一个两阶段管道,阶段1学习通用嵌入,阶段2使用定义嵌入来整合符号定义。
  • 对拼接后的猜想-公理嵌入使用逻辑回归分类器来预测前提的有用性。
  • 使用负样本挖掘和跨多块GPU的异步Adam优化进行训练。
  • 缓存嵌入以高效地评估大量猜想–公理对。

实验结果

研究问题

  • RQ1深度神经网络是否能够在没有手工特征的情况下,从大型形式化语料库中学习有用的前提相关性信号?
  • RQ2字符级、词级和具备定义感知的嵌入在前提选择中的比较如何?
  • RQ3将神经预测与传统特征相结合是否能带来ATP成功的互补提升?
  • RQ4在 Mizar 上通过神经前提选择能实现的自动定理证明准确性提升有多大?

主要发现

Cutoff kk-NN Baseline (%)char-CNN (%)word-CNN (%)def-CNN-LSTM (%)def-CNN (%)def+char-CNN (%)
16674 (24.6)687 (25.1)709 (25.9)644 (23.5)734 (26.8)835 (30.5)
321081 (39.4)1028 (37.5)1063 (38.8)924 (33.7)1093 (39.9)1218 (44.4)
641399 (51)1295 (47.2)1355 (49.4)1196 (43.6)1381 (50.4)1470 (53.6)
1281612 (58.8)1534 (55.9)1552 (56.6)1401 (51.1)1617 (59)1695 (61.8)
2561709 (62.3)1656 (60.4)1635 (59.6)1519 (55.4)1708 (62.3)1780 (64.9)
5121762 (64.3)1711 (62.4)1712 (62.4)1593 (58.1)1780 (64.9)1830 (66.7)
10241762 (64.3)1762 (64.3)1755 (64)1647 (60.1)1822 (66.4)1862 (67.9)
  • 两阶段神经方法(字符级嵌入随后为词级/定义嵌入)显著提升了前提选择,相对于带手工特征的 k-NN 基线。
  • def-CNN-LSTM 和 def-CNN 模型优于基线,最佳集成在前 k 个前提内证明定理的比例达到 74.25%(k 最多为 1024)。
  • def-CNN 与 char-CNN 的联合与或超越其他神经模型,覆盖测试集的 69.8%;将神经方法与 k-NN 相结合,总体证明比例达 80.9%。
  • 训练过程中的负样本挖掘至关重要,在前 16 条 cutoff 时,证明定理数量几乎翻倍。
  • 基于阶段1字符 CNN嵌入构建的词级嵌入显著提升结果,优于纯词-CNN 或 RNN 变体。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。