Skip to main content
QUICK REVIEW

[논문 리뷰] Generative Language Modeling for Automated Theorem Proving

Stanislas Polu, Ilya Sutskever|arXiv (Cornell University)|2020. 09. 07.
Natural Language Processing Techniques참고 문헌 41인용 수 44
한 줄 요약

이 논문은 디코더-전용 Transformer 모델을 훈련시켜 Metamath 증명 단계들을 생성하도록 하고, 수학 데이터 및 합성 데이터 증강이 자동 정리 증명에 개선을 가져오며; 최고의 모델은 set.mm에서 최첨단 증명 완료를 달성하고 형식 커뮤니티에 의해 채택된 증명을 생성할 수 있다.

ABSTRACT

We explore the application of transformer-based language models to automated theorem proving. This work is motivated by the possibility that a major limitation of automated theorem provers compared to humans -- the generation of original mathematical terms -- might be addressable via generation from language models. We present an automated prover and proof assistant, GPT-f, for the Metamath formalization language, and analyze its performance. GPT-f found new short proofs that were accepted into the main Metamath library, which is to our knowledge, the first time a deep-learning based system has contributed proofs that were adopted by a formal mathematics community.

연구 동기 및 목표

  • 생성적 사전 학습이 형식 언어(Metamath)에서 자동 정리 증명 성능을 향상시킨다는 것을 입증한다.
  • 소형 증명 데이터셋에서 모델 크기가 증명 탐색 능력에 미치는 영향을 평가한다.
  • 증거 탐색을 안내하고 자기 개선을 가능하게 하는 학습된 가치 함수로의 반복 학습을 탐구한다.
  • 수학 중심 데이터와 일반 웹 데이터에 대한 사전 학습이 증명자 성능에 미치는 영향을 평가한다.
  • 합성 데이터 증강이 작은 모델의 성능을 향상시킬 수 있음을 보여주되 타당성에 해를 주지 않으면서 작은 모델에 대해서도 성능 향상을 이끌어낼 수 있다.

제안 방법

  • 메타매스 증명에서 GOAL을 주면 PROOFSTEP를 생성하기 위해 디코더-전용 Transformer를 사용한다(최대 36 레이어, 774M 매개변수).
  • GOAL <GOAL> PROOFSTEP <PROOFSTEP> 형식으로 데이터 포맷하고 조건부 언어 모델링 목표로 학습한다.
  • 한 단계에서 e 전술을 샘플링하고 최대 d 단계까지 탐색하여 가장 가능성이 높은 목표를 확장하는 증명 탐색 루프를 유지한다.
  • Python 기반 Metamath 검증기 및 호환 가능한 증명 탐색 커널을 구현하여 엔드-투-엔드 평가를 수행한다.
  • 산술 및 환-대수 증명을 생성하는 합성 데이터 세트로 학습 데이터를 증강하여 하위 목표 처리 능력을 향상시킨다.
  • 학습된 가치 함수 f_P를 반복적으로 훈련하여 목표가 증명으로 이어지는지 예측하고 V를 통해 탐색을 안내하는 데 이를 사용한다.
  • 모델 크기(160M, 400M, 700M, 최대 1.5B) 및 사전 학습 체계(CommonCrawl, Github, WebMath) 전반에 걸친 실험을 수행한다.

실험 결과

연구 질문

  • RQ1수학 중심 데이터에 대한 사전 학습이 일반 텍스트 데이터에 비해 정리 증명 성능을 향상시키는가?
  • RQ2형식적 설정인 Metamath에서 모델 크기가 증명 탐색 성능에 어떤 영향을 미치는가?
  • RQ3학습된 가치 함수로의 반복적 데이터 생성으로 증명 탐색을 안내하고 결과를 개선할 수 있는가?
  • RQ4합성 데이터 증강이 프로버 성능에 미치는 영향은 무엇이며 특히 작은 모델에 대한 영향은?
  • RQ5GPT-f 접근이 보류된 Metamath 증명의 상당 부분을 닫을 수 있는가?

주요 결과

  • 수학 중심 데이터에 대한 사전 학습은 일반 웹 데이터보다 프로버의 성능을 향상시킨다.
  • 모델 크기는 성능과 양의 상관관계가 있으며 큰 모델이 더 높은 증명 탐색 비율을 달성한다.
  • 학습된 가치 함수에 의한 반복적 데이터 생성은 정책-전용 학습보다 프로버 성능을 향상시킨다.
  • 합성 데이터 증강은 더 큰 모델에 대해 측정 가능한 이점을 제공하지만 작은 모델에는 이점이 감소하거나 혼합될 수 있다.
  • 최고 모델은 유효 세트에서 31.58%를 달성하고 이 설정에서 Metamath 증명 완료에 대해 최첨단 성능을 보여준다.
  • WebMath 데이터로 사전 학습된 700M 모델에서 가장 높은 성능 향상을 얻었으며(WebMath pre-trained 700M에서 42.56%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.