QUICK REVIEW

[논문 리뷰] The neural network pushdown automation: model, stack and learning simulations

Guo-Zheng Sun, C. Lee Giles|arXiv (Cornell University)|1993. 08. 01.

Machine Learning and Algorithms참고 문헌 41인용 수 32

한 줄 요약

이 논문은 결정적 문맥 자유 문법을 학습하기 위해 순환 신경망과 연속적이고 미분 가능한 스택을 결합한 신경망 스택 오토마타(NNPDA)를 제안한다. 아날로그 스택을 통해 공동 오차 함수를 기울기 하강법으로 최적화함으로써, 훈련 후에 이산적 PDA를 추출할 수 있으며, 이는 임의의 길이의 새로운 문자열을 정확히 식별한다. 이 PDA는 원본 문법의 PDA 구조와 일치한다.

ABSTRACT

In order for neural networks to learn complex languages or grammars, they must have sufficient computational power or resources to recognize or generate such languages. Though many approaches have been discussed, one ob- vious approach to enhancing the processing power of a recurrent neural network is to couple it with an external stack memory - in effect creating a neural network pushdown automata (NNPDA). This paper discusses in detail this NNPDA - its construction, how it can be trained and how useful symbolic information can be extracted from the trained network. In order to couple the external stack to the neural network, an optimization method is developed which uses an error function that connects the learning of the state automaton of the neural network to the learning of the operation of the external stack. To minimize the error function using gradient descent learning, an analog stack is designed such that the action and storage of information in the stack are continuous. One interpretation of a continuous stack is the probabilistic storage of and action on data. After training on sample strings of an unknown source grammar, a quantization procedure extracts from the analog stack and neural network a discrete pushdown automata (PDA). Simulations show that in learning deterministic context-free grammars - the balanced parenthesis language, 1*n0*n, and the deterministic Palindrome - the extracted PDA is correct in the sense that it can correctly recognize unseen strings of arbitrary length. In addition, the extracted PDAs can be shown to be identical or equivalent to the PDAs of the source grammars which were used to generate the training strings.

연구 동기 및 목표

복잡한 문법을 학습하기 위해 순환 신경망에 외부 스택 메모리를 통합하여 계산 능력을 향상시키기.
엔드 투 엔드 훈련을 가능하게 하는 미분 가능한 스택 메커니즘 개발.
훈련된 신경망과 스택 시스템에서 이산적이고 기호적인 스택 오토마타(PDA) 추출.
추출된 PDA가 결정적 문맥 자유 문법으로부터의 새로운 문자열을 정확히 식별하는지 확인하기.
추출된 PDA가 훈련 데이터를 생성한 원본 문법의 PDA와 동치 또는 동일한지 검증하기.

제안 방법

스택 연산(push/pop)과 데이터 저장을 연속 함수로 모델링한 연속적이고 미분 가능한 스택 설계.
신경망 상태 오토마타의 학습과 스택 연산의 학습을 결합하는 공동 오차 함수 정의.
오차 함수를 최소화하기 위해 기울기 하강법을 사용하여 네트워크와 스택 양쪽에 대한 역전파를 가능하게 함.
아날로그 스택과 훈련된 네트워크를 이산적 스택 오토마타(PDA)로 변환하기 위한 양자화 절차 적용.
예를 들어 1*n0*n 및 팰린드롬과 같은 알려지지 않은 결정적 문맥 자유 문법의 샘플 문자열로 NNPDA 훈련.
추출된 PDA의 성능을 검증하기 위해 임의의 길이의 새로운 문자열을 식별할 수 있는지 테스트함.

실험 결과

연구 질문

RQ1미분 가능한 스택을 갖춘 신경망이 균형 잡힌 괄호와 팰린드롬과 같은 결정적 문맥 자유 언어를 인식할 수 있는가?
RQ2훈련된 신경망과 아날로그 스택 시스템에서 기호적이고 이산적인 PDA를 추출할 수 있는가?
RQ3추출된 PDA는 목표 문법으로부터의 새로운 문자열을 임의의 길이로 정확히 식별하는가?
RQ4추출된 PDA는 훈련 데이터를 생성한 원본 문법의 PDA와 동치 또는 동일한가?
RQ5기울기 기반 학습이 네트워크와 스택 연산을 통합된 프레임워크 내에서 효과적으로 훈련시킬 수 있는가?

주요 결과

NNPDA는 균형 잡힌 괄호 언어 1*n0*n 및 결정적 팰린드롬을 포함한, 결정적 문맥 자유 문법으로부터의 새로운 문자열을 임의의 길이로 정확히 식별하는 데 성공한다.
훈련 후 양자화 절차를 통해 추출된 이산적 PDA는 목표 문법의 모든 새로운 테스트 문자열을 정확히 분류한다.
추출된 PDA는 훈련 문자열을 생성한 원본 문법의 PDA와 동일하거나 동치로 확인된다.
연속적 스택은 스택 연산을 통해 효과적인 역전파를 가능하게 하여 네트워크와 스택 행동의 공동 최적화를 허용한다.
모델은 외부 메모리를 갖는 미분 가능한 신경망에서 기호 지식(즉, 이산적 PDA)을 추출할 수 있음을 보여준다.
이 접근법은 훈련 중에 관찰한 문자열보다 긴 문자열로의 일반화를 정확히 달성하여, 기반 문법을 효과적으로 학습한 것으로 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.