QUICK REVIEW

[논문 리뷰] Holophrasm: a neural Automated Theorem Prover for higher-order logic

Daniel Whalen|arXiv (Cornell University)|2016. 08. 08.

Natural Language Processing Techniques참고 문헌 11인용 수 24

한 줄 요약

Holophrasm는 수동으로 설계된 특징 없이 고차 논리에서 증명을 수행하기 위해 딥러닝과 트리 기반 밴디트 탐색을 사용하는 새로운 신경망 기반 자동 정리 증명기이다. 이는 메타마스터의 set.mm 라이브러리에서 정리들을 증명하는 데 14.3%의 성공률을 달성한다. 이는 행동 열거를 위한 시퀀스-투-시퀀스 모델, 관련성과 보상 예측을 위한 신경망, UCT 유사 탐색 알고리즘을 통합함으로써 달성된다.

ABSTRACT

I propose a system for Automated Theorem Proving in higher order logic using deep learning and eschewing hand-constructed features. Holophrasm exploits the formalism of the Metamath language and explores partial proof trees using a neural-network-augmented bandit algorithm and a sequence-to-sequence model for action enumeration. The system proves 14% of its test theorems from Metamath's set.mm module.

연구 동기 및 목표

수동으로 설계된 특징을 사용하지 않고도 고차 논리에 대한 완전하고 비상호작용적인 자동 정리 증명기를 개발하는 것.
딥러닝이 메타마스터의 구조적이고 계층적인 증명 트리 환경에서 증명 탐색을 효과적으로 모델링할 수 있는지 탐색하는 것.
시퀀스-투-시퀀스 모델, 신경망 기반 관련성 추정, 트리 기반 밴디트 탐색을 통합하여 엔드 투 엔드 신경망 방법의 가능성을 입증하는 것.
대규모 공식 수학 코퍼스, 특히 메타마스터의 set.mm 모듈을 대상으로 시스템을 평가하여 성능과 일반화 능력을 평가하는 것.

제안 방법

메타마스터의 고차 논리 체계에서 부분 증명 트리를 탐색하기 위해 신경망을 보완한 밴디트 알고리즘(UCT의 변종)을 사용한다.
무한한 가능한 정리와 대체치에서 행동을 열거하기 위해 시퀀스-투-시퀀스 모델을 활용한다.
문맥과 표현 유사성 기반으로 특정 목표를 증명하는 데 유용한 정리일 가능성의 정도를 추정하기 위해 관련성 네트워크를 적용한다.
제약이 없는 변수에 대한 올바른 대체치를 예측하기 위해 생성 네트워크를 사용하며, 정확도 향상을 위해 빔 서치를 적용한다.
탐색 과정에서 양성 및 음성 예시를 활용하여 제안된 증명 단계가 유효한지 여부를 분류하기 위해 보상 네트워크를 훈련시킨다.
탐색 과정 중에 트리 축약을 통합하여 행동이 다수의 하위 트리를 가질 수 있도록 하여 탐색 효율성과 커버리지 향상을 도모한다.

실험 결과

연구 질문

RQ1수동으로 설계된 특징에 의존하지 않고도 딥러닝 기반 시스템이 고차 논리의 증명 트리를 효과적으로 탐색할 수 있는가?
RQ2시퀀스-투-시퀀스 모델이 자동 정리 증명에서 유효하고 유용한 정리와 대체치를 얼마나 잘 생성할 수 있는가?
RQ3신경망이 공식 증명 환경에서 잠재적 증명 단계의 관련성과 보상 정도를 얼마나 잘 추정할 수 있는가?
RQ4신경망에 의해 안내되는 트리 기반 밴디트 알고리즘이 대규모 공식 수학 코퍼스에서 경쟁적인 증명 탐색 성능을 달성할 수 있는가?
RQ5다양한 수학 분야에 걸쳐 일반화할 수 있는 완전한 엔드 투 엔드 신경망 기반 자동 정리 증명기를 훈련시키는 것이 가능한가?

주요 결과

Holophrasm는 메타마스터의 set.mm 모듈에 포함된 2,720개의 테스트 정리 중 14.3%를 증명하여, 새로운 명제에 대해 14.3%의 성공률을 달성한다.
관련성 네트워크는 관련 정리를 선별할 때 상위 1 정렬 정확도 55.3%, 상위 5 정렬 정확도 72.8%, 상위 20 정렬 정확도 87.4%를 기록한다.
빔 폭이 20인 경우 생성 네트워크는 모든 제약이 없는 변수에 대해 정확도 57.5%로 올바른 대체치를 예측한다.
보상 네트워크는 테스트 예시에서 77.6%의 분류 정확도를 기록하여 기준선 음성 예측 정확도 62.1%보다 유의미하게 높은 성능을 보인다.
성공적인 경우에 중앙값으로 17회의 탐색 루프를 거치며 효율적인 수렴을 보인다.
성능은 초기 정리에서 가장 높으며, 데이터베이스의 첫 457개 테스트 정리에서 45.1%의 성공률을 기록하여 단순하거나 초기 증명에 대한 학습 편향이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.