QUICK REVIEW

[논문 리뷰] Not All Invariants Are Equal: Curating Training Data to Accelerate Program Verification with SLMs

Ido Pinto, Yizhak Yisrael Elboher|arXiv (Cornell University)|2026. 03. 16.

Logic, programming, and type systems인용 수 0

한 줄 요약

논문은 노이즈가 있는 검증자 생성 불변량을 고품질 학습 신호로 바꿔 소형 언어모델(SLM)을 미세조정하는 데이터 큐레이션 파이프라인 Wonda를 제시하며, 어려운 케이스에서 검증 성능의 상당한 이점을 얻는다.

ABSTRACT

The synthesis of inductive loop invariants is a critical bottleneck in automated program verification. While Large Language Models (LLMs) show promise in mitigating this issue, they often fail on hard instances, generating invariants that are invalid or computationally ineffective. While fine-tuning is a natural route to mitigate this limitation, obtaining high-quality training data for invariant generation remains an open challenge. We present a rigorous data curation pipeline designed to extract high-quality training signals from raw verifier-generated invariants. First, we formalize the properties required for a high-quality training invariant. Second, we propose Wonda, a pipeline that refines noisy data via AST-based normalization, followed by LLM-driven semantic rewriting and augmentation with provable quality guarantees. We demonstrate that fine-tuning Small Language Models (SLMs) on this curated dataset result in consistent and significant performance gain. In particular, a fine-tuned 4B parameter model matches the utility of a GPT-OSS-120B baseline and approaches the state-of-the-art GPT-5.2, without incurring reasoning-time overhead. On challenging instances from the recent InvBench evaluation suite, our approach doubles the invariant correctness and speedup rates of base models; and improves their Virtual Best Performance (VBP) rates on the verification task by up to 14.2%.

연구 동기 및 목표

프로그램 검증에서 고품질 학습 불변량의 요구사항 formal화.
노이즈가 있는 검증자 출력물을 학습 가능 신호로 변환하는 데이터 큐레이션 파이프라인(Wonda) 설계 및 검증.
큐레이션 데이터로 소형 언어모델(SLM)을 미세조정하면 불변량 생성 성능이 향상되는지 입증.
여러 기본 모델과 벤치마크 세트를 통해 속도 향상과 정확도 향상을 정량화.

제안 방법

학습 대상으로 비축중(degenerate가 아닌), 정확하고 유용하며 압축된 불변량 정의.
UAutomizer의 검증자 생성 불변량으로 학습 데이터를 구체화하고 AST 기반 정규화를 적용하여 구조를 통일화.
LLM 구동의 의미론적 재작성 단계로 압축되고 해석 가능한 불변량 후보를 생성.
정확성과 충분성을 보장하기 위해 형식적 검증 도구로 변환된 불변량을 검증.
병렬의 정확성 및 충분성 검사를 기반으로 골든 학습 샘플(Q ≥ 2)을 선별하는 품질 등급 메커니즘 도입.
V2 데이터셋(7,283샘플)에 대한 SLM 미세조정 성능을 대형 모델과 포트폴리오/가상 최상성능(VBP) 프레임워크로 평가.

실험 결과

연구 질문

RQ1고품질 학습 데이터가 원시 솔버 출력보다 SLM의 불변량 생성에 도움이 되는가?
RQ2불변량의 학습 가능성 및 유용성을 향상시키는 데이터 큐레이션 방법(정규화와 의미론적 단순화)은 무엇인가?
RQ3큐레이션 데이터로 미세조정된 SLM이 어려운 벤치마크에서 대형 LLM과 비교해 검증 성능에서 경쟁할 수 있는가?
RQ4가상 최상성능 지표가 LLM이 기호 검증기와 병렬로 실행될 때 실질적 이점을 어떻게 드러내는가?

주요 결과

Model	R_valid (%)	R_correct (%)	R_speedup (%)	S_bar (>1) (x)	VBP (s)	VBP_E2E (s)	Solved
GPT-5.2	94.0 ± 1.7	72.4 ± 2.2	37.1 ± 1.2	10.7 ± 0.4	155.6 ± 3.0	163.4 ± 3.0	3, 2, 3
GPT-OSS-120B	92.1 ± 1.2	58.0 ± 1.2	27.4 ± 2.9	7.0 ± 1.4	165.8 ± 5.6	167.6 ± 5.7	3, 2, 1
Qwen3-8B (Base)	89.4 ± 7.8	23.9 ± 3.1	10.8 ± 0.5	8.5 ± 5.2	181.6 ± 4.3	181.7 ± 4.2	0, 0, 3
Qwen3-8B-V2 (Ours)	100.0 ± 0.0	42.8 ± 4.6	21.7 ± 1.7	10.7 ± 2.3	166.5 ± 4.3	166.7 ± 4.3	2, 1, 4
Qwen3-4B (Base)	99.2 ± 0.0	22.8 ± 2.2	11.1 ± 1.0	8.9 ± 2.5	185.6 ± 2.3	185.7 ± 2.3	1, 0, 1
Qwen3-4B-V2 (Ours)	100.0 ± 0.0	44.4 ± 2.3	24.7 ± 1.2	12.4 ± 2.2	165.5 ± 3.2	165.7 ± 3.2	3, 2, 2
Qwen3-0.6B (Base)	88.4 ± 0.5	28.5 ± 2.8	12.2 ± 2.2	5.3 ± 3.3	182.9 ± 5.7	183.0 ± 5.7	2, 0, 1
Qwen3-0.6B-V2 (Ours)	99.7 ± 0.5	27.9 ± 0.5	14.1 ± 2.5	8.5 ± 3.1	174.0 ± 5.6	174.1 ± 5.6	2, 2, 1

신중하게 큐레이션된 데이터 파이프라인(Wonda)이 불변량 생성을 위한 미세조정 SLM의 성능 향상에 상당한 이점을 제공한다.
Wonda 데이터로 미세조정된 4B 파라미터 SLM이 GPT-OSS-120B의 유용성과 대체로 GPT-5.2의 검증 태스크 수행에 도달하며 추가 추론 시간 부담 없이 비슷한 성능을 보인다.
InvBench의 어려운 사례에서 미세조정 모델은 불변량 정확도와 속도 향상 측면에서 베이스라인 대비 두 배의 개선을 보인다.
VBP(포트폴리오 기반) 결과는 여러 케이스에서 벽시계 시간의 큰 개선을 보여주며 12–20초의 단축을 달성한다.
QL SLMs가 V2 데이터로 다수 규모의 모델에서 V0/V1 대비 성능 우수(예: Qwen3-4B-V2: 정확도 44.4% vs 22.8%; 속도 향상 24.7% vs 11.1%).
대형 모델 기준선(GPT-5.2, GPT-OSS-120B)은 VBP에서 여전히 경쟁력이 유지되지만, V2로 학습된 4B 모델은 추론 지연 시간을 고려할 때 종단 간 성능이 비슷하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.