QUICK REVIEW

[논문 리뷰] HOList: An Environment for Machine Learning of Higher-Order Theorem Proving

Kshitij Bansal, Sarah M. Loos|arXiv (Cornell University)|2019. 04. 05.

Logic, programming, and type systems참고 문헌 46인용 수 19

한 줄 요약

HOList는 HOL Light 기반의 고차 논리 정리 증명을 위한 강화학습 환경과 벤치마크를 제공하여 딥러닝 기반 자동 정리 증명을 가능하게 한다. 이 시스템인 DeepHOL은 29,462개의 정리로 구성된 대규모 코퍼스에서 강화학습을 통해 전략 수준의 동작 공간과 커리큘럼 학습을 활용해 훈련 세트의 58%를 증명하는 데 성공하였다.

ABSTRACT

We present an environment, benchmark, and deep learning driven automated theorem prover for higher-order logic. Higher-order interactive theorem provers enable the formalization of arbitrary mathematical theories and thereby present an interesting, open-ended challenge for deep learning. We provide an open-source framework based on the HOL Light theorem prover that can be used as a reinforcement learning environment. HOL Light comes with a broad coverage of basic mathematical theorems on calculus and the formal proof of the Kepler conjecture, from which we derive a challenging benchmark for automated reasoning. We also present a deep reinforcement learning driven automated theorem prover, DeepHOL, with strong initial results on this benchmark.

연구 동기 및 목표

기존의 정리 증명기 시스템 간의 분산 문제를 해결하기 위해 고차 논리 정리 증명을 위한 통합된 오픈소스 강화학습 환경을 구축하는 것.
Kepler 추측과 관련 수학의 공식화를 기반으로 한 대규모 실용적 벤치마크를 구축하는 것.
모방 학습과 강화학습을 통해 전략 선택 및 추론 순서 평가를 학습할 수 있는 딥러닝 기반 자동 정리 증명기 DeepHOL을 개발하는 것.
모듈러 API와 증명 관리 도구를 공개하여 인공지능 기반 공식 추론 분야에서 재현 가능하고 확장 가능한 연구를 가능하게 하는 것.
수작업 히ュ리스틱에 의존하지 않고도 신경망이 복잡한 실제 공식 수학에서 경쟁 가능한 성능을 달성할 수 있는지 입증하는 것.

제안 방법

강화학습 통합을 위한 안정적인 파이썬 API를 갖춘 수정된 HOL Light 정리 증명기 기반의 프레임워크를 구축한다.
증명은 전략 적용의 순서로 표현되며, 각 동작은 전략과 그 인수로 정의되어 증명 전략의 엔드 투 엔드 학습을 가능하게 한다.
모방 학습과 강화학습을 사용하여 다음 전략과 그 인수를 예측하는 데 사용되는, 128개 필터를 각 레이어에 가진 WaveNet 유사 아키텍처 기반의 딥 네트워크를 학습시킨다.
강화학습 루프는 1,000개의 코어를 활용한 분산 증명 검색을 사용하며, 타임아웃은 300초이고, 각 정리에 대해 100개의 증명 상태를 탐색한다.
인수 순서 평가를 세 가지 변형—전략 독립형, 전략 의존형, 하위목표 수준 검색—으로 탐색하여 성능에 미치는 영향을 평가한다.
효율적인 증명 검색을 위해 정리 임베딩을 사전 계산하고, 랜덤화된 증명기 하이퍼파rameter를 사용하여 증명 다양성을 증가시킨다.

실험 결과

연구 질문

RQ1딥 강화학습 에이전트는 전략 수준의 동작만을 사용하여 고차 논리에서 대규모로 정리 증명을 학습할 수 있는가?
RQ2인수 순서 평가 전략의 선택—전략 독립형 대비 전략 의존형—은 증명 커버리지와 학습 효율성에 어떤 영향을 미치는가?
RQ3인간의 증명을 기반으로 학습한 신경망이 Kepler 추측과 같은 대규모 실제 공식화에서 새로운 정리를 일반화하여 증명할 수 있는가?
RQ4커리큘럼 학습과 분산 증명 검색이 신경망 기반 정리 증명기의 성능을 얼마나 향상시킬 수 있는가?
RQ5완전히 엔드 투 엔드로 학습된 증명기는 더 복잡한 최신 기술의 자동 정리 증명기와 경쟁 가능한 성능을 달성할 수 있는가?

주요 결과

강화학습 루프 설정은 훈련 세트의 10,199개 정리 중 5,679개(55.7%)를 증명하여 복잡한 공식 수학에서 강력한 일반화 능력을 입증하였다.
'Loop tactic dependent' 변형은 5,518개의 증명(54.1%)을 달성하여 전략 인식 기반의 인수 선택이 학습 효율성을 향상시킨다는 것을 보여주었다.
'Loop on subgoals' 변형은 1,988개의 정리(19.5%)를 증명했지만, 주요 루프보다 성능이 떨어져 이 설정에서 하위목표 수준의 학습이 제한된 이점을 가진다는 것을 시사하였다.
최종 모델은 Flyspeck 데이터셋의 2,000개 정리로 구성된 검증 샘플에서 37.0%의 증명 성공률을 기록하여 강력한 제로샷 일반화 능력을 보였다.
핵심 및 복잡한 코퍼스의 결합에서 5,919개의 증명(훈련 세트의 58.0%)을 달성하여 다양한 수학 분야에 걸쳐 확장성을 입증하였다.
사전 계산된 정리 임베딩과 랜덤화된 증명기 파rameter의 사용은 증명 검색을 크게 가속화하고 증명 다양성을 증가시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.