[論文レビュー] MathlibLemma: Folklore Lemma Generation and Benchmark for Formal Mathematics
この論文はMathlibLemmaという4エージェントLLMフレームワークを提案し、Mathlibのフォークロ lemmasを自動発見・形式化・証明、検証済みライブラリを含む4,028タスクのMathlibLemmaベンチマークを紹介します。
While the ecosystem of Lean and Mathlib has enjoyed celebrated success in formal mathematical reasoning with the help of large language models (LLMs), the absence of many folklore lemmas in Mathlib remains a persistent barrier that limits Lean's usability as an everyday tool for mathematicians like LaTeX or Maple. To address this, we introduce MathlibLemma, the first LLM-based multi-agent system to automate the discovery and formalization of mathematical folklore lemmas. This framework constitutes our primary contribution, proactively mining the missing connective tissue of mathematics. Its efficacy is demonstrated by the production of a verified library of folklore lemmas, a subset of which has already been formally merged into the latest build of Mathlib, thereby validating the system's real-world utility and alignment with expert standards. Leveraging this pipeline, we further construct the MathlibLemma benchmark, a suite of 4,028 type-checked Lean statements spanning a broad range of mathematical domains. By transforming the role of LLMs from passive consumers to active contributors, this work establishes a constructive methodology for the self-evolution of formal mathematical libraries.
研究の動機と目的
- Mathlibにおける欠落しているフォークロlemmasを特定・形式化し、正式化ワークフローの後工程のギャップを縮小する。
- スケーラブルなマルチエージェントLLMパイプライン(Discovery, Judge, Formalizer, Prover)を提案し、構文的に有効で意味的に妥当なLeanlemmasと証明を生成する。
- 大規模で型チェック済みのフォークロlemmasベンチマークを作成し、LLMベースの形式的推論システムを評価・ガイドする。
- フォークロ lemmasの検証済みライブラリを提供し、実世界の有用性を検証するためにMathlibへの一部 upstreamingを実証する。
提案手法
- DiscoveryがMathlibのシードから候補となるLean文を生成する4エージェントパイプライン。
- JudgeがLLMベースの判定で数学的正確性をフィルタする。
- Formalizerが構文/型エラーを修正し、Leanサーバーと対話してコンパイル可能な文を確保する。
- ProverがLeanの証明を生成・検証を試みる;失敗は最大2回のリペアループで修正され、カーネル検証で妥当性を確保する。

実験結果
リサーチクエスチョン
- RQ1既存ライブラリのシード文脈から欠落したフォークロ lemmasを自動パイプラインで信頼性高く発見できるか。
- RQ2LLMsがフォークロ lemmasをフィルタリング・形式化・ Proofする際に幻影を最小化し、Lean/Mathlibでどれだけうまく機能するか。
- RQ3現行の proverの下で大規模なフォークロlemmasベンチマークの解法性と品質はどうか。
- RQ4生成されたフォークロ lemmasのいくらまでMathlibへ upstreamし、人間の数学者に受け入れられるか。
主な発見
| Model | Foundational | Applied | Abstract | Total |
|---|---|---|---|---|
| GPT | 19.81 | 17.47 | 21.30 | 19.81 |
| GPT-Reasoning | 22.32 | 19.67 | 23.98 | 22.32 |
| Kimina | 14.37 | 12.12 | 15.28 | 14.37 |
| Goedel | 21.18 | 29.63 | 15.54 | 12.96 |
| DeepSeek32B | 7.05 | 11.11 | 3.60 | 3.89 |
| DeepSeek70B | 6.73 | 10.95 | 3.60 | 2.96 |
| Qwen | 2.81 | 2.05 | 2.99 | 3.89 |
| Union (All Models) | 44.99 | 50.86 | 37.14 | 50.86 |
- Foundational/Applied/Abstractの領域を横断する4,028の型検査済みLean文のベンチマークを構築。
- サンプル未解決事例の厳密な監査で、人間によって証明可能な確率が78%であり、文の内在的妥当性が高いことを示唆。
- 最先端モデルの総合でベンチマークの44.99%を解け(Success@2)、いかなる単一モデルよりも多様性の利点を示す。
- Specialist Goedel ProverはFoundationalで29.63%だがAbstractでは12.96%に低下し、汎用 vs 専門のトレードオフを浮き彫りに。
- 多様なモデルをアンサンブルすると大幅な向上が得られ、Unionの性能は最高モデルを大きく上回る(44.99% vs 22.32%)。
- 1,812件の証明が生成・検証され、3つのlemmaがMathlibへ upstreamされ、実世界の有用性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。