[论文解读] ProofNet: Autoformalizing and Formally Proving Undergraduate-Level Mathematics
ProofNet 是一个基准,包含 371 条 Lean 3 的并行非正式与正式数学陈述与证明,以及基线结果和两种新颖的自动形式化方法(提示检索和蒸馏反向翻译)。
We introduce ProofNet, a benchmark for autoformalization and formal proving of undergraduate-level mathematics. The ProofNet benchmarks consists of 371 examples, each consisting of a formal theorem statement in Lean 3, a natural language theorem statement, and a natural language proof. The problems are primarily drawn from popular undergraduate pure mathematics textbooks and cover topics such as real and complex analysis, linear algebra, abstract algebra, and topology. We intend for ProofNet to be a challenging benchmark that will drive progress in autoformalization and automatic theorem proving. We report baseline results on statement autoformalization via in-context learning. Moreover, we introduce two novel statement autoformalization methods: prompt retrieval and distilled backtranslation.
研究动机与目标
- 提供一个并行的数据集,包含 Lean 3 的非正式与正式本科数学陈述与证明,以推动自动形式化和定理证明研究。
- 在 ProofNet 中评估现有语言模型在自动形式化和非正式化任务上的表现。
- 提出并评估在没有大规模平行语料的情况下提升自动形式化性能的技术。
- 展示在数学数据上训练的开源模型,并分析它们的优势与局限性。
提出的方法
- 构建 ProofNet,包含 Lean 3 的 371 条并行正式陈述、相应的自然语言陈述,以及自然语言证明。
- 使用大模型对自动形式化进行带上下文学习基线的评估。
- 引入 prompt retrieval,通过相关 Lean mathlib 语句增强 few-shot 提示。
- 开发蒸馏反向翻译,以在没有并行数据的情况下微调模型用于自动形式化。
实验结果
研究问题
- RQ1大型语言模型在多大程度上能将非正式定理陈述自动形式化为 Lean 3 的形式化?
- RQ2检索增强提示和蒸馏反向翻译是否提升自动形式化性能,相对于 few-shot 基线?
- RQ3当前模型在 ProofNet 的形式化与非正式化任务中的优势与失败模式是什么?
- RQ4在数学丰富语料上训练的开源数学模型是否能够与黑箱 API 基线在自动形式化任务中一较高下?
主要发现
| 模型 | 形式化类型检查率 | 形式化 BLEU | 形式化准确率 | 非正式化编译率 | 非正式化 BLEU | 非正式化准确率 |
|---|---|---|---|---|---|---|
| Few-shot. proofGPT-1.3B | 5.9 | 8.1 | 0 | 0.77 | 5.1 | 4.3 |
| Few-shot. proofGPT-6.7B | 4.3 | 4.7 | 0 | 0.70 | 6.0 | 6.5 |
| Few-shot. Codex | 23.7 | 25.1 | 13.4 | 100 | 13.2 | 62.3 |
| Prompt retrieval. Codex | 45.2 | 14.8 | 16.1 | - | - | - |
| Dist. backtrans. proofGPT-1.3B | 19.4 | 10.7 | 3.2 | - | - | - |
- 带上下文学习的基线在形式化方面取得了非平凡的性能,但远未完美(例如,在 few-shot 设置下,Code-davinci-002 的形式化准确率为 13.4%)。
- prompt retrieval 在形式化准确率和 typecheck 率方面显著优于标准 few-shot 提示。
- 蒸馏反向翻译在较小模型上提升了自动形式化性能,超过它们的上下文学习基线。
- 在模型之间,非正式化比正式化更容易,生成非正式证明和陈述的准确性更高。
- BLEU 与正式化性能相关性较差,而 typecheck 率是自动形式化成功的更好预测指标。
- Code-davinci-002 在输出可通过类型检查的形式化时显示出强的语义掌握,尽管许多输出需要仔细验证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。