[논문 리뷰] VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean
VeriSoftBench는 오픈 소스 형식적 방법 프로젝트에서 500개의 Lean 4 증명 의무를 벤치마크로 제공하며, 저장소 컨텍스트를 보존해 프로젝트별 다중 파일 의존성에서 프로버 성능을 평가합니다; 결과는 수학 중심 벤치마크에서의 전이 제한과 전이 의존성의 강한 영향을 보여줍니다.
Large language models have achieved striking results in interactive theorem proving, particularly in Lean. However, most benchmarks for LLM-based proof automation are drawn from mathematics in the Mathlib ecosystem, whereas proofs in software verification are developed inside definition-rich codebases with substantial project-specific libraries. We introduce VeriSoftBench, a benchmark of 500 Lean 4 proof obligations drawn from open-source formal-methods developments and packaged to preserve realistic repository context and cross-file dependencies. Our evaluation of frontier LLMs and specialized provers yields three observations. First, provers tuned for Mathlib-style mathematics transfer poorly to this repository-centric setting. Second, success is strongly correlated with transitive repository dependence: tasks whose proofs draw on large, multi-hop dependency closures are less likely to be solved. Third, providing curated context restricted to a proof's dependency closure improves performance relative to exposing the full repository, but nevertheless leaves substantial room for improvement. Our benchmark and evaluation suite are released at https://github.com/utopia-group/VeriSoftBench.
연구 동기 및 목표
- 저장소 규모의 Lean 증명에서 프로젝트별 추상화와 파일 간 의존성을 다루는 프로버의 동작을 평가합니다.
- 큐레이션된 로컬 컨텍스트와 전체 저장소 컨텍스트가 프로버 성공에 미치는 영향을 평가합니다.
- 전이 저장소 의존성이 증명 자동화 성능에 미치는 영향을 특성화합니다.
- 저장소 규모의 형식 검증을 촉진하기 위한 벤치마크 및 평가 도구를 제공합니다.
제안 방법
- 확인 도메인을 포괄하는 23개의 Lean 저장소로 VeriSoftBench를 구성합니다.
- 교차 파일 의존성 및 프로젝트별 추상화를 포함한 저장소 컨텍스트를 보존합니다.
- 큐레이션된(제한된 의존성) 컨텍스트와 전체 저장소(로컬 레포지토리 전체) 컨텍스트의 두 가지 컨텍스트 체계를 정의합니다.
- LLM의 generate-check-repair 루프를 사용해 프런티어 LLM과 Aristotle와 같은 프로버의 엔드투엔드 사용을 평가합니다.
- 증명이 달성되는지 여부와 저장소 의존성 구조(직접 대 전이, 깊이) 간의 상관관계를 분석합니다.
- 커뮤니티 사용을 위해 벤치마크와 결과를 GitHub에서 공개합니다.

실험 결과
연구 질문
- RQ1Mathlib 중심 프로버가 저장소 규모의 검증 작업으로 얼마나 잘 전이되는가?
- RQ2전이 저장소 의존성과 증명 성공 간의 관계는 무엇인가?
- RQ3큐레이션된 로컬 컨텍스트를 제공하는 것이 전체 저장소 컨텍스트에 비해 프로버 성능을 향상시키는가?
- RQ4큰 코드베이스에서 증명 자동화에 영향을 주는 일반적 패턴과 의존성 구조는 무엇인가?
주요 결과
| 카테고리 | 모델 | 큐레이티드 컨텍스트 (Pass@8) | 전체 컨텍스트 (Pass@8) |
|---|---|---|---|
| VeriSoftBench-Full | Claude Opus 4.5 (Pass@8, r=3) | 31.2% | 23.2% |
| VeriSoftBench-Full | GPT-5.2 (Pass@8, r=3) | 12.6% | 10.8% |
| VeriSoftBench-Full | Gemini-3-Pro (Pass@8, r=3) | 41.0% | 34.8% |
| VeriSoftBench-Full | Gödel-Prover-v2 (Pass@8, r=3) | 5.6% | 0.0% |
| VeriSoftBench-Aristotle | Aristotle | - | 69% |
| VeriSoftBench-Aristotle | Gemini-3-Pro (r=3) | - | 65% |
- Frontier LLMs와 전문 프로버는 VeriSoftBench 작업에서 보통의 성공을 보인다.
- 직접적이거나 다단계의 저장소 로컬 의존성이 목표를 해결하는 데 필요할 때 성능이 하락한다.
- 큐레이션된 컨텍스트가 전체 저장소 컨텍스트에 비해 성능을 개선하나 여전히 큰 개선 여지가 남아 있다.
- 수학 중심 벤치마크는 저장소 규모의 검증 작업에서의 성능을 잘 예측하지 못한다.
- 전체 컨텍스트는 직접적으로 필요한 의존성을 넘어 반복적인 구조적 패턴을 통해 힌트를 제공할 수 있다.
- Aristotle는 같은 파일의 보조 정의가 포함된 하위집합에서 69%를 달성하며; Gemini-3-Pro는 해당 하위집합에서 65%를 달성해 더 쉬운 하위집합을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.