QUICK REVIEW

[논문 리뷰] Generative Language Modeling for Automated Theorem Proving

Stanislas Polu, Ilya Sutskever|arXiv (Cornell University)|2020. 09. 07.

Natural Language Processing Techniques참고 문헌 41인용 수 44

한 줄 요약

이 논문은 디코더-전용 Transformer 모델을 훈련시켜 Metamath 증명 단계들을 생성하도록 하고, 수학 데이터 및 합성 데이터 증강이 자동 정리 증명에 개선을 가져오며; 최고의 모델은 set.mm에서 최첨단 증명 완료를 달성하고 형식 커뮤니티에 의해 채택된 증명을 생성할 수 있다.

ABSTRACT

We explore the application of transformer-based language models to automated theorem proving. This work is motivated by the possibility that a major limitation of automated theorem provers compared to humans -- the generation of original mathematical terms -- might be addressable via generation from language models. We present an automated prover and proof assistant, GPT-f, for the Metamath formalization language, and analyze its performance. GPT-f found new short proofs that were accepted into the main Metamath library, which is to our knowledge, the first time a deep-learning based system has contributed proofs that were adopted by a formal mathematics community.

연구 동기 및 목표

생성적 사전 학습이 형식 언어(Metamath)에서 자동 정리 증명 성능을 향상시킨다는 것을 입증한다.
소형 증명 데이터셋에서 모델 크기가 증명 탐색 능력에 미치는 영향을 평가한다.
증거 탐색을 안내하고 자기 개선을 가능하게 하는 학습된 가치 함수로의 반복 학습을 탐구한다.
수학 중심 데이터와 일반 웹 데이터에 대한 사전 학습이 증명자 성능에 미치는 영향을 평가한다.
합성 데이터 증강이 작은 모델의 성능을 향상시킬 수 있음을 보여주되 타당성에 해를 주지 않으면서 작은 모델에 대해서도 성능 향상을 이끌어낼 수 있다.

제안 방법

메타매스 증명에서 GOAL을 주면 PROOFSTEP를 생성하기 위해 디코더-전용 Transformer를 사용한다(최대 36 레이어, 774M 매개변수).
GOAL <GOAL> PROOFSTEP <PROOFSTEP> 형식으로 데이터 포맷하고 조건부 언어 모델링 목표로 학습한다.
한 단계에서 e 전술을 샘플링하고 최대 d 단계까지 탐색하여 가장 가능성이 높은 목표를 확장하는 증명 탐색 루프를 유지한다.
Python 기반 Metamath 검증기 및 호환 가능한 증명 탐색 커널을 구현하여 엔드-투-엔드 평가를 수행한다.
산술 및 환-대수 증명을 생성하는 합성 데이터 세트로 학습 데이터를 증강하여 하위 목표 처리 능력을 향상시킨다.
학습된 가치 함수 f_P를 반복적으로 훈련하여 목표가 증명으로 이어지는지 예측하고 V를 통해 탐색을 안내하는 데 이를 사용한다.
모델 크기(160M, 400M, 700M, 최대 1.5B) 및 사전 학습 체계(CommonCrawl, Github, WebMath) 전반에 걸친 실험을 수행한다.

실험 결과

연구 질문

RQ1수학 중심 데이터에 대한 사전 학습이 일반 텍스트 데이터에 비해 정리 증명 성능을 향상시키는가?
RQ2형식적 설정인 Metamath에서 모델 크기가 증명 탐색 성능에 어떤 영향을 미치는가?
RQ3학습된 가치 함수로의 반복적 데이터 생성으로 증명 탐색을 안내하고 결과를 개선할 수 있는가?
RQ4합성 데이터 증강이 프로버 성능에 미치는 영향은 무엇이며 특히 작은 모델에 대한 영향은?
RQ5GPT-f 접근이 보류된 Metamath 증명의 상당 부분을 닫을 수 있는가?

주요 결과

수학 중심 데이터에 대한 사전 학습은 일반 웹 데이터보다 프로버의 성능을 향상시킨다.
모델 크기는 성능과 양의 상관관계가 있으며 큰 모델이 더 높은 증명 탐색 비율을 달성한다.
학습된 가치 함수에 의한 반복적 데이터 생성은 정책-전용 학습보다 프로버 성능을 향상시킨다.
합성 데이터 증강은 더 큰 모델에 대해 측정 가능한 이점을 제공하지만 작은 모델에는 이점이 감소하거나 혼합될 수 있다.
최고 모델은 유효 세트에서 31.58%를 달성하고 이 설정에서 Metamath 증명 완료에 대해 최첨단 성능을 보여준다.
WebMath 데이터로 사전 학습된 700M 모델에서 가장 높은 성능 향상을 얻었으며(WebMath pre-trained 700M에서 42.56%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.