QUICK REVIEW

[논문 리뷰] Making Neural Programming Architectures Generalize via Recursion

Jonathon Cai, Richard Shin|arXiv (Cornell University)|2017. 04. 21.

Adversarial Robustness in Machine Learning인용 수 80

한 줄 요약

논문은 재귀를 Neural Programmer-Interpreter 아키텍처에 도입함으로써 덧셈, 버블 정렬, 위상 정렬, 퀵소트와 같은 작업들에 대해 신경 프로그램이 입증 가능한 완벽한 일반화를 달성할 수 있음을 작은 학습 데이터 세트로 시연한다.

ABSTRACT

Empirically, neural networks that attempt to learn programs from data have exhibited poor generalizability. Moreover, it has traditionally been difficult to reason about the behavior of these models beyond a certain level of input complexity. In order to address these issues, we propose augmenting neural architectures with a key abstraction: recursion. As an application, we implement recursion in the Neural Programmer-Interpreter framework on four tasks: grade-school addition, bubble sort, topological sort, and quicksort. We demonstrate superior generalizability and interpretability with small amounts of training data. Recursion divides the problem into smaller pieces and drastically reduces the domain of each neural network component, making it tractable to prove guarantees about the overall system's behavior. Our experience suggests that in order for neural architectures to robustly learn program semantics, it is necessary to incorporate a concept like recursion.

연구 동기 및 목표

데이터로 학습된 신경 프로그램의 일반화가 좋지 않은 문제를 동기 부여하고 해결한다.
문제 복잡도를 줄이고 해석 가능한 일반화 증명을 가능하게 하는 핵심 추상화로 재귀를 제안한다.
다양한 작업에서 Neural Programmer-Interpreter 프레임워크 내 재귀 신경 프로그램을 시연한다.

제안 방법

프로그램이 스스로를 호출할 수 있고, 반환 주소에 컨텍스트가 스택으로 쌓이는 재귀적 형식을 Neural Programmer-Interpreter 프로그램에 도입한다.
학습 흔적(트레이스)을 명시적 재귀 요소를 포함하도록 수정하여 모델이 재귀 제어 흐름을 학습하도록 한다.
도메인 특화 인코더와 환경 표현을 사용하여 네 가지 작업(초등학교 수준의 덧셈, 버블 소트, 위상 정렬, 퀵소트)에 적용한다.
기저 사례와 축소 규칙이 올바르면 입증 가능한 완전 일반화가 달성되는 검증 가능한 프레임워크를 제공한다.

실험 결과

연구 질문

RQ1재귀가 신경 프로그램이 임의로 긴 입력이나 더 복잡한 인스턴스에 대해 완전한 일반화를 가능하게 할 수 있는가?
RQ2NPI가 재귀 프로그램을 학습하기 위해 필요한 학습 흔적 수정은 무엇인가?
RQ3적절한 기저 사례와 축소 규칙이 주어졌을 때 재귀 신경 프로그램에 대한 일반화의 입증 가능한 보장이 있는가?
RQ4덧셈, 정렬, 위상 정렬, 퀵소트와 같은 작업에서 재귀가 학습과 검증에 어떤 영향을 미치는가?

주요 결과

재귀 신경 프로그램은 소량의 학습 데이터로도 시험된 작업들에서 완전한 일반화를 달성한다.
재귀 트레이스는 비재귀 트레이스보다 NPI가 재귀 프로그램을 더 쉽게 학습하게 한다.
검증 세트가 모든 기저 사례와 축소를 포함하면 입증 가능한 완벽한 일반화가 달성된다.
재귀는 모든 입력을 열거할 필요를 줄여 서브문제 구조에 집중함으로써 검증을 실현 가능하게 한다.
꼬리 재귀 최적화는 재귀 프로그램에서 호출 스택의 증가를 관리하는 데 도움을 준다.
실험은 동일한 작업에서 이전 일반화 결과보다 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.