[論文レビュー] VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean
VeriSoftBenchはオープンソース形式的方法プロジェクトからの Lean 4 証明義務500件を提供し、リポジトリ文脈を保持してプロジェクト固有の複数ファイル依存関係に対する証明ツールの性能を評価する。結果は、数学中心のベンチマークからの移行が限定的で、推移的依存関係の影響が強いことを示す。
Large language models have achieved striking results in interactive theorem proving, particularly in Lean. However, most benchmarks for LLM-based proof automation are drawn from mathematics in the Mathlib ecosystem, whereas proofs in software verification are developed inside definition-rich codebases with substantial project-specific libraries. We introduce VeriSoftBench, a benchmark of 500 Lean 4 proof obligations drawn from open-source formal-methods developments and packaged to preserve realistic repository context and cross-file dependencies. Our evaluation of frontier LLMs and specialized provers yields three observations. First, provers tuned for Mathlib-style mathematics transfer poorly to this repository-centric setting. Second, success is strongly correlated with transitive repository dependence: tasks whose proofs draw on large, multi-hop dependency closures are less likely to be solved. Third, providing curated context restricted to a proof's dependency closure improves performance relative to exposing the full repository, but nevertheless leaves substantial room for improvement. Our benchmark and evaluation suite are released at https://github.com/utopia-group/VeriSoftBench.
研究の動機と目的
- リポジトリ規模の Lean 証明に対する証明実行系のプロジェクト固有の抽象化とファイル間依存をどの程度扱えるかを評価する。
- 厳選されたコンテキストと全リポジトリ文脈の比較が証明成功に与える影響を評価する。
- 推移的リポジトリ依存関係が証明自動化の性能にどう影響するかを特徴付ける。
- リポジトリ規模の形式検証を推進するベンチマークと評価スイートを提供する。
提案手法
- 検証ドメインをカバーする23の Lean リポジトリから VeriSoftBench を構築する。
- ファイル間依存関係とプロジェクト固有の抽象化を含むリポジトリ文脈を保持する。
- 2つの文脈レジームを定義する:厳選されたコンテキスト(焦点化された依存関係)と全リポジトリ文脈(ローカルリポジトリ全体)。
- 前沿の LLM と専門の証明器を、LLM 用の生成-チェック-修復ループと Aristotle のような証明器のエンドツーエンド利用で評価する。
- 証明成功とリポジトリ依存構造(直接依存 vs 推移的依存、深さ)との相関を分析する。
- ベンチマークと結果を GitHub で公開し、コミュニティ利用を促進する。

実験結果
リサーチクエスチョン
- RQ1Mathlib 中心の証明器はリポジトリ規模の検証タスクへどの程度転用可能か。
- RQ2推移的リポジトリ依存関係と証明成功の関係はどうなるか。
- RQ3厳選された局所コンテキストを提供することが全リポジトリ文脈より証明器の性能を改善するか。
- RQ4大規模コードベースにおける証明自動化に影響を与える共通パターンや依存構造は何か。
主な発見
| Category | Model | Curated Context (Pass@8) | Full Context (Pass@8) |
|---|---|---|---|
| VeriSoftBench-Full | Claude Opus 4.5 (Pass@8, r=3) | 31.2% | 23.2% |
| VeriSoftBench-Full | GPT-5.2 (Pass@8, r=3) | 12.6% | 10.8% |
| VeriSoftBench-Full | Gemini-3-Pro (Pass@8, r=3) | 41.0% | 34.8% |
| VeriSoftBench-Full | Gödel-Prover-v2 (Pass@8, r=3) | 5.6% | 0.0% |
| VeriSoftBench-Aristotle | Aristotle | - | 69% |
| VeriSoftBench-Aristotle | Gemini-3-Pro (r=3) | - | 65% |
- 前沿の LLM と専門の証明器は VeriSoftBench のタスクで控えめな成功を示す。
- トランジティブで多段階のリポジトリ局所依存関係がゴールを discharge する際に必要となると性能が低下する。
- 厳選された文脈は全リポジトリ文脈と比べて性能を向上させるが、改善の余地は大きい。
- Mathlib 中心のベンチマークはリポジトリ規模の検証タスクでの性能を予測する力が低い。
- 全体文脈は直接要求される依存関係を超えた再発する構造パターンのヒントを提供する可能性がある。
- Aristotle は同ファイルの補題を含むサブセットで69%、Gemini-3-Pro は同サブセットで65%を達成しており、サブセット化が容易であることを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。