[論文レビュー] Learning to Disprove: Formal Counterexample Generation with Large Language Models
論文本体は、Lean 4 によって検証された正式な反例と証明を生成するために、symbolic mutation データ合成とマルチ報酬専門家反復フレームワークを用いて LLMs を訓練し、ベースラインより著しく改善を達成する。
Mathematical reasoning demands two critical, complementary skills: constructing rigorous proofs for true statements and discovering counterexamples that disprove false ones. However, current AI efforts in mathematics focus almost exclusively on proof construction, often neglecting the equally important task of finding counterexamples. In this paper, we address this gap by fine-tuning large language models (LLMs) to reason about and generate counterexamples. We formalize this task as formal counterexample generation, which requires LLMs not only to propose candidate counterexamples but also to produce formal proofs that can be automatically verified in the Lean 4 theorem prover. To enable effective learning, we introduce a symbolic mutation strategy that synthesizes diverse training data by systematically extracting theorems and discarding selected hypotheses, thereby producing diverse counterexample instances. Together with curated datasets, this strategy enables a multi-reward expert iteration framework that substantially enhances both the effectiveness and efficiency of training LLMs for counterexample generation and theorem proving. Experiments on three newly collected benchmarks validate the advantages of our approach, showing that the mutation strategy and training framework yield significant performance gains.
研究の動機と目的
- 数学的推論と形式検証における反例生成の必要性を動機づける。
- 多様な反例問題を創出するデータ合成パイプラインを開発する。
- 反例提案と正式証明生成の双方を向上させるためのマルチ報酬訓練 regimes を提案する。
- Lean 4 ベンチマークでの反例探索と自動形式化検証のために LLMs を微調整する。
提案手法
- 非公式の反例提案の後に Lean 4 による正式証明検証を行う、二段階タスクとしての正式反例生成を定義する。
- 仮説を落とすことによって変異定理を作成する、シンボリック変異(Lean 4 の tactic mutate)を用い、反例問題を生み出す。
- マルチ報酬の専門家イテレーション:反例用と証明用の二つの LLM を訓練し、変異定理の証明と落とした仮説の証明という二重の報酬で学習する。
- 報酬 r_i = alpha * I(変異証明) + (1-alpha) * I(落とした仮説の証明) を用いた重み付き教師あり微調整。
- 約57.5万件の反例問題を、多様なシードソース(Mathlib、Leanworkbook、MiniF2F、PutnamBench)から大規模にデータ合成。
- For-Counter や Veri-Formalize などの三つのベンチマークで、pass@k 率の改善と問題解決数の絶対値を示す評価。

実験結果
リサーチクエスチョン
- RQ1RQ1:データ変異による反例問題生成の有効性と効率性。
- RQ2RQ2:マルチ報酬訓練と単一報酬訓練の有効性と効率性。
- RQ3RQ3:反例生成と形式検証タスクにおける統合フレームワークの総合的な性能向上。
主な発見
- 変異ベースのデータ合成により約57.5万件の反例問題を生成。変異比率は1.65–2.48、平均実行時間は種定理あたり0.3–0.71 秒。
- マルチ報酬訓練は収束が速く、最終的な pass@k 指標が単一報酬訓練より高い(pass@1: 約49% 対 約43%、pass@4: 約52% 対 約46%、pass@9: 約54% 対 約47%)。
- 微調整されたモデルは、反例生成の三つのベンチマークで最先端の推論モデルを大幅に上回り(pass@1、pass@4、pass@9)、最強ベースラインより三 benchmarks でそれぞれ絶対的に 95、69、63 件多く解けた。
- 統合ワークフローは、1) 反例特定、2) 自動形式化結果の検証、3) 推論ステップの検証の全てで優れた性能を発揮し、著名な独自プロverおよびオープンソースの provers に比して顕著な改善を報告。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。