Skip to main content
QUICK REVIEW

[論文レビュー] Goedel-Code-Prover: Hierarchical Proof Search for Open State-of-the-Art Code Verification

Zenan Li, Ziran Yang|arXiv (Cornell University)|Mar 18, 2026
Topic Modeling被引用数 0
ひとこと要約

The paper presents Gödel-Code-Prover, a hierarchical proof search framework in Lean 4 that decomposes verification goals into subgoals with a principled scoring mechanism and hybrid reinforcement learning, achieving strong prove rates on Lean benchmarks. It reports a 62.0% overall success on 427 tasks, with up to 2.6x improvement over baselines.

ABSTRACT

Large language models (LLMs) can generate plausible code but offer limited guarantees of correctness. Formally verifying that implementations satisfy specifications requires constructing machine-checkable proofs, a task that remains beyond current automation. We propose a hierarchical proof search framework for automated code verification in Lean~4 that decomposes complex verification goals into structurally simpler subgoals before attempting tactic-level proving. Central to our approach is a principled decomposition score that combines constructive justification with structural effectiveness. Crucially, this score serves as both the training reward and the inference-time ranking criterion, ensuring strict alignment between optimization and deployment. We train Goedel-Code-Prover-8B, a single unified policy for both decomposition and completion, via supervised initialization followed by hybrid reinforcement learning, where a continuous decomposition reward drives planning exploration while supervised replay stabilizes proof generation. On three Lean-based code verification benchmarks comprising 427 tasks, our 8B-parameter model achieves a 62.0\% prove success rate, a 2.6$ imes$ improvement over the strongest baseline, surpassing neural provers up to 84$ imes$ larger. We further observe consistent inference-time scaling: success rates improve monotonically with search iterations and sampling budget, with our trained model achieving greater efficiency than frontier off-the-shelf models of comparable scale.

研究の動機と目的

  • コードの正確性保証を提供する formal verification の必要性を動機づける。
  • Lean 4 での階層的な分解–証明フレームワークを提案し、コード検証を自動化する。
  • 最適化とデプロイメントを整合させる principled な decomposition score を導入する。
  • supervised 初期化とハイブリッド RL によって decomposition と completion の両方を扱う統一 8B パラメータ方針を訓練する。
  • frontier モデルやニューラル系証明者に対して顕著な改善を示す three Lean benchmarks で経験的に検証する。

提案手法

  • 自動化された Lean 4 コード検証を Hoare 式タスクとして定式化し、証明探索を planning(分解)と proving(証明生成)ループとしてモデル化する。
  • 構造的有効性(AST に基づく演算子フットプリント)と構成的正当化(証明再構成・quickcheck)を組み合わせた decomposition score を定義する。
  • 2 ステージの訓練パイプラインを用意: scaffolded decomposition/completion 軌道での教師付きファインチューニング、続いて dense decomposition 報酬と sparse completion 信号のバランスを取るハイブリッド強化学習。
  • 統一方針 Gödel-Code-Prover-8B を decomposition と completion の両方に適用し、共通目的を共有する。 decomposition には GRPO、completion には supervised replay を適用。
  • 推論は最高フットプリントを持つ目標を選択する反復分解と leaf-proof completion を進行させ、必要に応じて pass@k の並列実行を行う。
Figure 3: Number of solved problems by baselines and our framework across three benchmarks. Baselines are evaluated with parallel generation under a Pass@128 budget; our method operates under a search-based inference setting using Göedel-Code-Prover-8B. Our framework outperforms all baselines by a s
Figure 3: Number of solved problems by baselines and our framework across three benchmarks. Baselines are evaluated with parallel generation under a Pass@128 budget; our method operates under a search-based inference setting using Göedel-Code-Prover-8B. Our framework outperforms all baselines by a s

実験結果

リサーチクエスチョン

  • RQ1 learned hierarchical proof search framework が frontier モデルおよび neural prover と比較して Lean 4 コード検証をどれだけうまく行えるか?
  • RQ2 decomposition score が訓練・デプロイ・証明成功に与える影響は何か?
  • RQ3 joint decomposition と completion 訓練と ablated 設定の効果は?
  • RQ4 推論予算とイテレーション数の増加に対する証明性能のスケーリングはどうなるか?

主な発見

BenchmarkLemma count (mean)Lemma count (std)Proof length (mean)Proof length (std)
Verina17.0211.79167.11108.50
Clever12.1310.57137.7897.79
AlgoVeri8.4810.97129.8783.03
  • フレームワークは Verina で 68.8%、 Clever で 54.0%、 AlgoVeri で 62.3% の証明成功率を達成し、総合では 427 タスクで 62.0% を達成。
  • strongest baseline を 2.6 倍上回り、最大で 84 倍大きいニューラル証明者にも対抗。
  • Quickcheck によるサブゴールの無効なものの除外が、分解の妥当性を堅牢にする。
  • 証明は平均で 8–17 の分解定理と 130 行超の証明コードを含み、一部は 680 行を超える。
  • 推論は検索イテレーションと予算を増やすほど単調に改善し、スケーラブルな潜在性を示す。
  • ベンチマーク全体で frontier 推論モデルおよびニューラル証明者に対して著しい利得を示す。
Figure 4: Decomposition reduction rate vs. iterations across three benchmarks. Lower values indicate more aggressive goal simplification.
Figure 4: Decomposition reduction rate vs. iterations across three benchmarks. Lower values indicate more aggressive goal simplification.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。