[논문 리뷰] Autoformalization with Large Language Models
대형 언어 모델은 자연어 수학을 Isabelle/HOL로 번역하는 데 상당한 성공을 거두고 있으며(38/150 완전 사례, 25.3% 전체), 자동 형식화된 정리는 MiniF2F에서 신경 추론기 성능을 35.2%로 끌어올려 새로운 최첨단 성과를 달성했다.
Autoformalization is the process of automatically translating from natural language mathematics to formal specifications and proofs. A successful autoformalization system could advance the fields of formal verification, program synthesis, and artificial intelligence. While the long-term goal of autoformalization seemed elusive for a long time, we show large language models provide new prospects towards this goal. We make the surprising observation that LLMs can correctly translate a significant portion ($25.3\%$) of mathematical competition problems perfectly to formal specifications in Isabelle/HOL. We demonstrate the usefulness of this process by improving a previously introduced neural theorem prover via training on these autoformalized theorems. Our methodology results in a new state-of-the-art result on the MiniF2F theorem proving benchmark, improving the proof rate from $29.6\%$ to $35.2\%$.
연구 동기 및 목표
- LLMs가 자연어 수학 진술을 형식적 Isabelle/HOL 코드로 자동 형식화할 수 있음을 입증한다.
- miniF2F 파생 데이터셋에서 인간 평가 및 BLEU 점수를 통해 자동 형식화의 품질을 평가한다.
- 전문가 반복(expert iteration)을 통해 자동 형식화된 정리가 신경 정리 증명기를 향상시킬 수 있음을 보여준다.
제안 방법
- PaLM과 Codex가 자연어 진술을 Isabelle 코드로 번역하도록 유도하기 위해 소수 샷 예시를 포함한 맥락 학습을 사용한다.
- miniF2F-algebra 및 miniF2F-number_theory 하위 집합에서 인간-정답 형식화에 대한 BLEU 점수를 사용해 번역을 평가한다.
- 150건의 자동 형식화에 대해 인간 오류 분석을 수행해 실패 모드를 식별한다.
- 기반 증명기로 증명을 생성하고, 성공적인 증명을 학습 데이터에 추가한 뒤 미세 조정하여 향상된 증명기를 얻는 전문가 반복 루프를 적용한다.
실험 결과
연구 질문
- RQ1대형 언어 모델이 자연어 수학 진술을 Isabelle/HOL로 높은 충실도로 변환할 수 있는가?
- RQ2모델 규모와 다양한 모델(PaLM 변형, Codex)이 자동 형식화 품질에 어떤 영향을 미치는가?
- RQ3자동 형식화된 정리가 miniF2F와 같은 표준 벤치마크에서 신경 정리 증명기를 향상시킬 수 있는가?
- RQ4자동 형식화에서 흔히 나타나는 실패 모드는 무엇이며 프롬프트나 예시가 이를 어떻게 완화할 수 있는가?
주요 결과
| 모델 | 유효 | 테스트 |
|---|---|---|
| PACT | 23.9% | 24.6% |
| FMSCL | 33.6% | 29.6% |
| Base model (M0) | 28.3% | 29.9% |
| After 1 expert iteration (M1) | 36.1% | 34.0% |
| After 2 expert iterations (M2) | 37.3% | 35.2% |
- Codex와 대형 PaLM 모델은 사례의 하위 집합에 대해 완벽한 Isabelle 번역을 생성할 수 있으며(예: Case Study 1), 평가된 150건의 자동 형식화 중 전반적으로 25.3%가 완벽하다.
- BLEU 점수는 모델 규모가 커질수록 향상된다: PaLM 8B ( algebra 31.49, number_theory 22.10 ), PaLM 64B ( algebra 43.13, number_theory 31.43 ), PaLM 540B ( algebra 50.30, number_theory 36.16 ), Codex ( algebra 57.13, number_theory 43.33 ).
- 자동 형식화된 정리를 사용해 전문가 반복으로 신경 정리 증명기를 학습시키면 miniF2F에서 최첨단을 달성한다: 테스트에서 기본 29.9%, 1회 반복 후 34.0%, 2회 반복 후 35.2%.
- 두 번의 전문가 반복은 자동 형식화 데이터로 이전 최첨단 대비 5.6퍼센트 포인트의 향상을 가져온다.
- 사례 연구는 완벽한 번역과 일부 실패를 모두 보여주며(예: 비공식 정의와 Isabelle 개념의 불일치), 소수 샷 프롬프트의 영향도 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.