Skip to main content
QUICK REVIEW

[论文解读] Formal Mathematics Statement Curriculum Learning

Stanislas Polu, Jesse Michael Han|arXiv (Cornell University)|Feb 3, 2022
Natural Language Processing Techniques被引用 24
一句话总结

该论文证明专家迭代(将证明搜索与学习交错)在形式数学证明生成方面显著优于仅进行证明搜索,从而实现逐步难度增大的问题课程,并通过精心挑选的问题集在 miniF2F 上取得最前沿的结果。

ABSTRACT

We explore the use of expert iteration in the context of language modeling applied to formal mathematics. We show that at same compute budget, expert iteration, by which we mean proof search interleaved with learning, dramatically outperforms proof search only. We also observe that when applied to a collection of formal statements of sufficiently varied difficulty, expert iteration is capable of finding and solving a curriculum of increasingly difficult problems, without the need for associated ground-truth proofs. Finally, by applying this expert iteration to a manually curated set of problem statements, we achieve state-of-the-art on the miniF2F benchmark, automatically solving multiple challenging problems drawn from high school olympiads.

研究动机与目标

  • 在形式数学中推动自动化推理,并解决证明环境中无限行动空间和缺乏自对弈的挑战。
  • 提出并评估一个专家迭代框架,用于将证明搜索与学习交错,使用 GPT-f 风格的模型。
  • 展示不同难度的辅助形式陈述集如何驱动一个课程,使之从易到难的证明。
  • 通过精心挑选的陈述课程和合成题目生成,在 miniF2F 基准测试上展示改进。

提出的方法

  • 使用一个解码器仅 Transformer(约 774M 参数),以 proofstep 和 proofsize 目标进行训练。
  • 引入 lean-gym,作为 Lean 定理证明器的数据收集与交互接口。
  • 自举:在网络规模数据上进行预训练,然后在 mathlib tactic 数据上微调并混合数据集。
  • 应用专家迭代:迭代地抽样证明搜索,提取成功证明和 proofsize 数据,并从基础模型微调。
  • 开发一个合成不等式生成器,以创建具有受控难度的课程 synth-ineq(N_D, N_S)。
  • 策划一个 miniF2F 课程(miniF2F-curriculum),并与 mathlib/synth-ineq 结合以实现对 miniF2F 的迁移。

实验结果

研究问题

  • RQ1在固定计算预算下,专家迭代是否能超越纯粹的证明搜索在形式数学中的表现?
  • RQ2将训练与证明搜索交错是否能够在没有真实证明的情况下解决逐步增加难度的课程?
  • RQ3经过策划和合成的陈述课程在多大程度上能够将改进转移到分布外的 miniF2F 问题?

主要发现

  • 在相同的计算预算下,专家迭代显著提高了证明成功率,相较于单独的证明搜索。
  • 由自动生成和人工精心策划的陈述构成的课程使模型能够解决越来越困难的问题。
  • 完整课程迁移(mathlib-train + synth-ineq + miniF2F-curriculum)在 miniF2F-valid 上达到最前沿结果,并提升 miniF2F-test 的表现。
  • 该方法在 mathlib-valid 上表现强劲,包括解决若干 AMC12 与 AIME 风格的问题,并在 miniF2F 基准测试上超过了先前的基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。