Skip to main content
QUICK REVIEW

[논문 리뷰] VeriSoftBench: Repository-Scale Formal Verification Benchmarks for Lean

Yutong Xin, Qiaochu Chen|arXiv (Cornell University)|2026. 02. 20.
Logic, programming, and type systems인용 수 0
한 줄 요약

VeriSoftBench는 오픈 소스 형식적 방법 프로젝트에서 500개의 Lean 4 증명 의무를 벤치마크로 제공하며, 저장소 컨텍스트를 보존해 프로젝트별 다중 파일 의존성에서 프로버 성능을 평가합니다; 결과는 수학 중심 벤치마크에서의 전이 제한과 전이 의존성의 강한 영향을 보여줍니다.

ABSTRACT

Large language models have achieved striking results in interactive theorem proving, particularly in Lean. However, most benchmarks for LLM-based proof automation are drawn from mathematics in the Mathlib ecosystem, whereas proofs in software verification are developed inside definition-rich codebases with substantial project-specific libraries. We introduce VeriSoftBench, a benchmark of 500 Lean 4 proof obligations drawn from open-source formal-methods developments and packaged to preserve realistic repository context and cross-file dependencies. Our evaluation of frontier LLMs and specialized provers yields three observations. First, provers tuned for Mathlib-style mathematics transfer poorly to this repository-centric setting. Second, success is strongly correlated with transitive repository dependence: tasks whose proofs draw on large, multi-hop dependency closures are less likely to be solved. Third, providing curated context restricted to a proof's dependency closure improves performance relative to exposing the full repository, but nevertheless leaves substantial room for improvement. Our benchmark and evaluation suite are released at https://github.com/utopia-group/VeriSoftBench.

연구 동기 및 목표

  • 저장소 규모의 Lean 증명에서 프로젝트별 추상화와 파일 간 의존성을 다루는 프로버의 동작을 평가합니다.
  • 큐레이션된 로컬 컨텍스트와 전체 저장소 컨텍스트가 프로버 성공에 미치는 영향을 평가합니다.
  • 전이 저장소 의존성이 증명 자동화 성능에 미치는 영향을 특성화합니다.
  • 저장소 규모의 형식 검증을 촉진하기 위한 벤치마크 및 평가 도구를 제공합니다.

제안 방법

  • 확인 도메인을 포괄하는 23개의 Lean 저장소로 VeriSoftBench를 구성합니다.
  • 교차 파일 의존성 및 프로젝트별 추상화를 포함한 저장소 컨텍스트를 보존합니다.
  • 큐레이션된(제한된 의존성) 컨텍스트와 전체 저장소(로컬 레포지토리 전체) 컨텍스트의 두 가지 컨텍스트 체계를 정의합니다.
  • LLM의 generate-check-repair 루프를 사용해 프런티어 LLM과 Aristotle와 같은 프로버의 엔드투엔드 사용을 평가합니다.
  • 증명이 달성되는지 여부와 저장소 의존성 구조(직접 대 전이, 깊이) 간의 상관관계를 분석합니다.
  • 커뮤니티 사용을 위해 벤치마크와 결과를 GitHub에서 공개합니다.
Figure 1 : Contextual dependencies comparison between (a) mathematical benchmark proofs, (b) lightweight verification tasks, and (c) repository-scale verification. PutnamBench proofs rely almost entirely on library (Mathlib) dependencies (purple). Verina introduces a small number of project-specific
Figure 1 : Contextual dependencies comparison between (a) mathematical benchmark proofs, (b) lightweight verification tasks, and (c) repository-scale verification. PutnamBench proofs rely almost entirely on library (Mathlib) dependencies (purple). Verina introduces a small number of project-specific

실험 결과

연구 질문

  • RQ1Mathlib 중심 프로버가 저장소 규모의 검증 작업으로 얼마나 잘 전이되는가?
  • RQ2전이 저장소 의존성과 증명 성공 간의 관계는 무엇인가?
  • RQ3큐레이션된 로컬 컨텍스트를 제공하는 것이 전체 저장소 컨텍스트에 비해 프로버 성능을 향상시키는가?
  • RQ4큰 코드베이스에서 증명 자동화에 영향을 주는 일반적 패턴과 의존성 구조는 무엇인가?

주요 결과

카테고리모델큐레이티드 컨텍스트 (Pass@8)전체 컨텍스트 (Pass@8)
VeriSoftBench-FullClaude Opus 4.5 (Pass@8, r=3)31.2%23.2%
VeriSoftBench-FullGPT-5.2 (Pass@8, r=3)12.6%10.8%
VeriSoftBench-FullGemini-3-Pro (Pass@8, r=3)41.0%34.8%
VeriSoftBench-FullGödel-Prover-v2 (Pass@8, r=3)5.6%0.0%
VeriSoftBench-AristotleAristotle-69%
VeriSoftBench-AristotleGemini-3-Pro (r=3)-65%
  • Frontier LLMs와 전문 프로버는 VeriSoftBench 작업에서 보통의 성공을 보인다.
  • 직접적이거나 다단계의 저장소 로컬 의존성이 목표를 해결하는 데 필요할 때 성능이 하락한다.
  • 큐레이션된 컨텍스트가 전체 저장소 컨텍스트에 비해 성능을 개선하나 여전히 큰 개선 여지가 남아 있다.
  • 수학 중심 벤치마크는 저장소 규모의 검증 작업에서의 성능을 잘 예측하지 못한다.
  • 전체 컨텍스트는 직접적으로 필요한 의존성을 넘어 반복적인 구조적 패턴을 통해 힌트를 제공할 수 있다.
  • Aristotle는 같은 파일의 보조 정의가 포함된 하위집합에서 69%를 달성하며; Gemini-3-Pro는 해당 하위집합에서 65%를 달성해 더 쉬운 하위집합을 시사한다.
Figure 3 : An example task instance from our benchmark. The goal is to synthesize a proof for the target theorem cexec_to_reds , which relates two definitions of program execution in a formalized programming language. The figure illustrates the context that must be provided to or retrieved by the pr
Figure 3 : An example task instance from our benchmark. The goal is to synthesize a proof for the target theorem cexec_to_reds , which relates two definitions of program execution in a formalized programming language. The figure illustrates the context that must be provided to or retrieved by the pr

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.