[論文レビュー] AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms
AlgoVeri は Dafny、Verus、Lean にまたがる 77 の古典アルゴリズム用の多言語 vericoding ベンチマークを導入し、言語横断のギャップと最先端モデルにおける修復ダイナミクスの違いを露呈します。
Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmarks test only individual languages/tools (e.g., Dafny, Verus, and Lean) and each covers very different tasks, so the performance numbers are not directly comparable. We address this gap with AlgoVeri, a benchmark that evaluates vericoding of $77$ classical algorithms in Dafny, Verus, and Lean. By enforcing identical functional contracts, AlgoVeri reveals critical capability gaps in verification systems. While frontier models achieve tractable success in Dafny ($40.3$% for Gemini-3 Flash), where high-level abstractions and SMT automation simplify the workflow, performance collapses under the systems-level memory constraints of Verus ($24.7$%) and the explicit proof construction required by Lean (7.8%). Beyond aggregate metrics, we uncover a sharp divergence in test-time compute dynamics: Gemini-3 effectively utilizes iterative repair to boost performance (e.g., tripling pass rates in Dafny), whereas GPT-OSS saturates early. Finally, our error analysis shows that language design affects the refinement trajectory: while Dafny allows models to focus on logical correctness, Verus and Lean trap models in persistent syntactic and semantic barriers. All data and evaluation code can be found at https://github.com/haoyuzhao123/algoveri.
研究の動機と目的
- クラシックアルゴリズムの vericoding の公正で跨言語の評価を促進する。
- SMTベースおよび対話的定理証明検証システム間で仕様を意味的に整合させる。
- Dafny、Verus、Lean を横断するモデルの性能を定量化し、ツールチェーンのボトルネックを特定する。
- frontier 対 open モデルにおけるテスト時の計算ダイナミクスとエラーモードを分析する。
提案手法
- Dafny、Verus、Lean に整合した仕様を持つ 77 の教科書スタイルのアルゴリズム問題コーパスを作成する。
- 検証が成功するまでコンパイラ/検証器のフィードバックを用いたマルチターン・リファインメントを通じてターゲット LLM を評価する。
- ソリューションをコンパイラ検証だけでなくアルゴリズム忠実性を確保するために意味的検証者を用いてフィルタリングする。
- 言語横断で frontier モデルと open-weight モデルを比較し、アルゴリズムクラス別の性能ギャップを特定する。
- 深さベースの修復と幅優先の並列サンプリングを比較する iso-compute 分析を実施する。
実験結果
リサーチクエスチョン
- RQ1LLMs が全体的な不変アルゴリズムを課題として SMTベースおよび ITP 検証システムに受け入れられるコードと証明を生成できるか。
- RQ2整合した仕様の下で Dafny、Verus、Lean における性能と失敗モードはどのように異なるか。
- RQ3vericoding 成功を達成する際のモデル能力の相対的寄与と検証器システムの寄与はどれくらいか。
- RQ4 iterative repair 戦略は open モデルに実質的な改善をもたらすか、 frontier モデルと比較してどうか。
主な発見
- frontier モデルは Dafny での検証率が Verus(24.7%)や Lean(7.8%)より高く、意味フィルタリングを含めると最大 40.3% の検証済みになる。
- AlgoVeri は言語横断およびアルゴリズムクラス間で大きな性能ギャップを明らかにし、特にグラフアルゴリズムとグローバル不変量は Verus および Lean の下で顕著に難しいことが分かった。
- frontier モデルは Dafny および Verus で反復的な修復を通じて継続的な改善を示し、場合によっては合格率を 3 倍にするが、open モデルは早期に飽和する(例:GPT-OSS-120B)。
- iso-compute 分析は深さベースの修復より並列サンプリングの方が open モデルには有益であることを示唆し、現行アーキテクチャでは深い修復の有効性が限定的である。
- 言語設計は refine の軌跡を左右する:Dafny は論理に焦点を当てた改善を支援し、Verus/Lean は構文的・意味的障壁および探索の複雑さを課して進歩を妨げる。
- table_headers:[],
- table_rows:[]
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。