QUICK REVIEW
[논문 리뷰] DeepMath - Deep Sequence Models for Premise Selection
Alex Alemi, François Chollet|arXiv (Cornell University)|2016. 06. 14.
Topic Modeling참고 문헌 33인용 수 116
한 줄 요약
이 논문은 깊은 신경 순차 모델이 대규모 자동 정리 증명에서 전제 선정을 효율적으로 수행할 수 있음을 보여주고, 수작업으로 설계된 특징 기반 기준선을 능가하며 앙상블을 통해 이를 보완한다.
ABSTRACT
We study the effectiveness of neural sequence models for premise selection in automated theorem proving, one of the main bottlenecks in the formalization of mathematics. We propose a two stage approach for this task that yields good results for the premise selection task on the Mizar corpus while avoiding the hand-engineered features of existing state-of-the-art models. To our knowledge, this is the first time deep learning has been applied to theorem proving on a large scale.
연구 동기 및 목표
- 대규모 자동 정리 증명에서 전제 선정을 병목으로 삼는 문제를 동기화한다.
- 손으로 설계된 특징 없이 형식화된 증명으로부터 학습하는 신경 모델을 개발한다.
- 정의 인식(definition-aware embeddings)을 포함하는 2단계 임베딩 방식으로 기호 일반화를 개선한다.
- Mizar/Mizar Library 코퍼스에서 신경 전제 선택기를 평가하고 손으로 만든 기준선과 비교한다.
제안 방법
- 추론과 공리를 문자-레벨 또는 단어-레벨의 스테이지별 신경망이 생성한 임베딩으로 표현한다.
- 단계 1은 일반 임베딩을 학습하고 단계 2는 정의 임베딩을 사용하여 기호 정의를 통합하는 2단계 파이프라인을 학습한다.
- 연결된 추론-공리 임베딩에 로지스틱 분류기를 사용하여 전제의 유용성을 예측한다.
- 다중 GPU에 걸쳐 부정 마이닝과 비동기 Adam 최적화를 사용하여 학습한다.
- 효율적으로 많은 추론–공리 쌍을 평가할 수 있도록 임베딩을 캐시한다.
실험 결과
연구 질문
- RQ1손으로 설계된 특징 없이도 대규모 형식 말뭉권에서 유용한 전제 관련 신호를 학습하는 심층 신경망이 가능한가?
- RQ2문자-레벨, 단어-레벨 및 정의 인식 임베딩이 전제 선별에 대해 어떻게 비교되는가?
- RQ3신경 예측과 전통적 특징의 결합이 ATP 성공에 보완적 이득을 주는가?
- RQ4신경 전제 선별으로 Mizar에서 자동 정리 증명의 정확도 향상이 얼마나 가능하는가?
주요 결과
| 컷오프 k | k-NN 기준선 (%) | char-CNN (%) | word-CNN (%) | def-CNN-LSTM (%) | def-CNN (%) | def+char-CNN (%) |
|---|---|---|---|---|---|---|
| 16 | 674 (24.6) | 687 (25.1) | 709 (25.9) | 644 (23.5) | 734 (26.8) | 835 (30.5) |
| 32 | 1081 (39.4) | 1028 (37.5) | 1063 (38.8) | 924 (33.7) | 1093 (39.9) | 1218 (44.4) |
| 64 | 1399 (51) | 1295 (47.2) | 1355 (49.4) | 1196 (43.6) | 1381 (50.4) | 1470 (53.6) |
| 128 | 1612 (58.8) | 1534 (55.9) | 1552 (56.6) | 1401 (51.1) | 1617 (59) | 1695 (61.8) |
| 256 | 1709 (62.3) | 1656 (60.4) | 1635 (59.6) | 1519 (55.4) | 1708 (62.3) | 1780 (64.9) |
| 512 | 1762 (64.3) | 1711 (62.4) | 1712 (62.4) | 1593 (58.1) | 1780 (64.9) | 1830 (66.7) |
| 1024 | 1762 (64.3) | 1762 (64.3) | 1755 (64) | 1647 (60.1) | 1822 (66.4) | 1862 (67.9) |
- 2단계 신경 접근법(문자-레벨에서 시작해 그다음 단어/정의 임베딩)을 통해 손으로 만든 특징을 가진 k-NN 기준선 대비 전제 선정을 크게 향상시킨다.
- def-CNN-LSTM 및 def-CNN 모델이 기준선을 상회하며, 최상의 앙상블은 상위 k개의 전제 내에서 증명된 정리의 74.25%를 달성한다(k 최대 1024).
- def-CNN와 char-CNN의 합집합은 다른 신경 모델을 상회하거나 동등하며 테스트 세트의 69.8%에 도달; 신경 방법과 k-NN의 결합은 전체적으로 80.9%의 증명이 이루어졌다.
- 학습 중 부정 마이닝은 매우 중요하며 상위 16개 컷오프에서 증명된 정리 수를 거의 두 배로 늘린다.
- 단어-레벨 임베딩은 1단계 문자 CNN 임베딩에서 구축되어 결과를 크게 향상시키며 순수 단어-CNN 또는 RNN 변형을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.