[논문 리뷰] Learning to Disprove: Formal Counterexample Generation with Large Language Models
논문은 Lean 4로 검증된 형식적 반례와 증명을 생성하도록 LLM을 학습시키고, 기호적 변이 데이터 합성 및 다중 보상 전문가 반복 프레임워크를 사용하여 기본선 대비 상당한 향상을 달성한다.
Mathematical reasoning demands two critical, complementary skills: constructing rigorous proofs for true statements and discovering counterexamples that disprove false ones. However, current AI efforts in mathematics focus almost exclusively on proof construction, often neglecting the equally important task of finding counterexamples. In this paper, we address this gap by fine-tuning large language models (LLMs) to reason about and generate counterexamples. We formalize this task as formal counterexample generation, which requires LLMs not only to propose candidate counterexamples but also to produce formal proofs that can be automatically verified in the Lean 4 theorem prover. To enable effective learning, we introduce a symbolic mutation strategy that synthesizes diverse training data by systematically extracting theorems and discarding selected hypotheses, thereby producing diverse counterexample instances. Together with curated datasets, this strategy enables a multi-reward expert iteration framework that substantially enhances both the effectiveness and efficiency of training LLMs for counterexample generation and theorem proving. Experiments on three newly collected benchmarks validate the advantages of our approach, showing that the mutation strategy and training framework yield significant performance gains.
연구 동기 및 목표
- 수학적 추론 및 형식적 검증에서 반례 생성의 필요성을 자극한다.
- 다양한 반례 문제를 생성하기 위한 데이터 합성 파이프라인을 개발한다.
- 반례 제안과 형식적 증명 생성을 모두 개선하기 위한 다중 보상 학습 regime를 제안한다.
- Lean 4 벤치마크에서 반례 탐색 및 자동 형식화 검증을 위해 LLM을 미세 조정한다.
제안 방법
- 형식적 반례 생성을 비대칭 두 단계 작업으로 프레이밍한다: 비공식 반례 제안 다음에 Lean 4에서의 형식적 증명 검증.
- Hypotheses를 제거하여 변형 정리를 만드는 기호적 변이(Lean 4 tactic mutate)로 반례 문제를 생성한다.
- 다중 보상 전문가 반복: 두 LLM(반례용, 증명용)을 변형 정리를 증명하고 제거된 가설을 증명하는 두 가지 보상에서 학습한다.
- 가중 감독 학습 미세 조정: 보상 r_i = alpha * I(변형 증명) + (1-alpha) * I(제거된 가설의 증명)로 설계된 방식으로 학습한다.
- 다양한 시드 소스(Mathlib, Leanworkbook, MiniF2F, PutnamBench)로부터 약 575K의 반례 문제를 대규모로 합성한다.
- For-Counter 및 Veri-Formalize 등 세 벤치마크에서 평가하여 pass@k 지표 및 문제 해결 수에서 향상된 성과를 보인다.

실험 결과
연구 질문
- RQ1RQ1: 데이터 변이를 사용한 반례 문제 생성의 효능과 효율성.
- RQ2RQ2: 다중 보상 학습이 단일 보상 학습에 비해 효율성 및 효과가 더 우수한가.
- RQ3RQ3: 반례 생성 및 형식 검증 작업에서 통합 프레임워크의 전반적 성능 향상.
주요 결과
- Mutation-based data synthesis produced ~575K counterexample problems with mutation ratios 1.65–2.48 and average runtime 0.3–0.71 seconds per seed theorem.
- 다중 보상 학습은 단일 보상 학습보다 더 빠르게 수렴하고 최종 pass@k 지표가 더 높게 나타났다 (pass@1: ~49% vs ~43%, pass@4: ~52% vs ~46%, pass@9: ~54% vs ~47%).
- Fine-tuned model substantially outperforms state-of-the-art reasoning models on three benchmarks for counterexample generation (pass@1, pass@4, pass@9), including an absolute gain of 95, 69, and 63 more solved problems than the strongest baseline on the three benchmarks for pass@1.
- 통합 워크플로우는 1) 반례 식별, 2) 자동 형식화 결과의 검증, 3) 추론 단계의 검증에서 우수한 성능을 달성하며, 저자들은 독점형 및 오픈 소스 증명기 대비 현저한 개선을 보고한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.