QUICK REVIEW

[논문 리뷰] Learning to Prove Theorems via Interacting with Proof Assistants

Kaiyu Yang, Jia Deng|arXiv (Cornell University)|2019. 05. 21.

Software Engineering Research인용 수 24

한 줄 요약

이 논문은 71,000개의 인간이 작성한 Coq 증명을 포함하는 대규모 데이터셋인 CoqGym과, 추론 도우미와의 상호작용을 자동화하기 위해 추상 구문 트리(abstract syntax trees, ASTs)로 증명 전략을 생성하는 딥러닝 모델인 ASTactic을 소개한다. ASTactic은 이전에 자동화 도구로 증명이 불가능했던 새로운 정리에 대해 12.2%의 성공률을 기록하여, 이전 방법들에 비해 향상된 일반화 능력과 유연성을 입증한다.

ABSTRACT

Humans prove theorems by relying on substantial high-level reasoning and problem-specific insights. Proof assistants offer a formalism that resembles human mathematical reasoning, representing theorems in higher-order logic and proofs as high-level tactics. However, human experts have to construct proofs manually by entering tactics into the proof assistant. In this paper, we study the problem of using machine learning to automate the interaction with proof assistants. We construct CoqGym, a large-scale dataset and learning environment containing 71K human-written proofs from 123 projects developed with the Coq proof assistant. We develop ASTactic, a deep learning-based model that generates tactics as programs in the form of abstract syntax trees (ASTs). Experiments show that ASTactic trained on CoqGym can generate effective tactics and can be used to prove new theorems not previously provable by automated methods. Code is available at https://github.com/princeton-vl/CoqGym.

연구 동기 및 목표

기계 학습 모델을 위한 상호작용 정리 증명(Interactive Theorem Proving, ITP) 분야에서 대규모이고 다양한 데이터셋의 부족을 해결하기 위해.
사전에 정의된 어휘 집합에 제한되는 고정된 어휘에 의존하는 이전 모델의 제한된 유연성 문제를 해결하기 위해.
딥러닝 모델이 추상 구문 트리(abstract syntax trees, ASTs)로 모델링하여 새로운, 어휘 외 전략을 생성할 수 있는 방법을 개발하기 위해.
학습 과정에서 다루지 않은 다양한 수학 및 프로그래밍 언어 분야로의 일반화 능력을 평가하기 위해.

제안 방법

123개의 오픈소스 Coq 프로젝트에서 유래한 71,000개의 인간이 작성한 증명을 포함하는 CoqGym이라는 데이터셋을 구축하며, 이는 수학, 하드웨어, 프로그래밍 언어 등 다양한 분야를 포함한다.
원본 증명의 중간 목표에서 파생된 합성 증명을 데이터셋에 추가하여, 증명 길이를 제어하고 추가적인 학습 데이터를 확보한다.
문맥 자유 문법과 런타임 토큰 가용성을 사용하여 입력 목표와 전제로부터 증명 전략의 AST를 생성하는 딥러닝 모델인 ASTactic을 설계한다.
입력 목표와 전제로부터 증명 전략의 AST를 예측하도록 시퀀스-투-시퀀스 프레임워크를 사용하여 학습하며, 이때 AST의 구조를 모델링한다.
사전 정의된 문법을 사용하여 문법적 정확성을 보장하고, 고정된 어휘 집합을 초월한 복합적인 전략 생성을 가능하게 한다.
학습 기간 동안 볼 수 없었던 새로운 정리를 증명할 수 있는 능력을 평가하며, Coq 환경에서 증명 완료 여부를 성공 기준으로 삼는다.

실험 결과

연구 질문

RQ1대규모이고 다양한 인간의 증명 데이터셋으로 훈련된 딥러닝 모델이 이전에 자동화 도구로 증명이 불가능했던 새로운 정리를 성공적으로 증명할 수 있는가?
RQ2AST 기반의 전략 생성 방식이 고정된 사전 정의된 명령어 집합에 제한되지 않는, 다소의 어휘 외 전략을 생성할 수 있는가?
RQ3자연스러운 증명 보조도구 상호작용을 통해, 모델이 인도, 재작성, 단순화와 같은 고수준 증명 전략을 얼마나 잘 학습할 수 있는가?
RQ4넓은 데이터셋으로 훈련된 모델이 산술, 대수학, 유형 이론 등 다양한 분야로의 일반화 능력은 어느 정도인가?
RQ5중간 목표에서 파생된 합성 증명은 학습된 증명 에이전트의 샘플 효율성과 일반화 능력을 향상시키는가?

주요 결과

ASTactic은 이전에 자동화 방법으로 증명이 불가능했던 새로운 정리에 대해 12.2%의 성공률을 기록하여, 훈련 데이터를 초월한 효과적인 일반화 능력을 입증한다.
모델은 전략을 구조화된 AST로 생성함으로써, 고정된 어휘에 제약을 받지 않는 복잡하고 복합적인 전략 생성이 가능해져, 더 높은 유연성을 확보한다.
123개의 다양한 프로젝트에서 유래한 71,000개의 증명을 포함하는 CoqGym은 이전의 데이터셋에 비해 훨씬 더 크고 다양한 벤치마크를 제공하여 강력한 모델 훈련을 지원한다.
중간 목표에서 유도된 합성 증명은 데이터 효율성을 향상시키고, 더 짧고 효율적인 증명 경로를 학습하는 데 도움을 준다.
이 방법은 자연스러운 증명 보조도구 상호작용을 통해 인도, 재작성, 단순화와 같은 고수준 증명 전략을 학습할 수 있도록 한다.
CoqGym 데이터셋의 규모와 다양성 덕분에, 이전 방법들에 비해 교차 도메인 일반화 능력에서 뛰어난 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.