QUICK REVIEW

[논문 리뷰] Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

Yikang Shen, Shawn Tan|arXiv (Cornell University)|2018. 10. 22.

Natural Language Processing Techniques참고 문헌 62인용 수 80

한 줄 요약

본 논문은 cumax 기반의 구조화된 게이트를 사용해 서로 다른 시간 스케일로 정보를 인코딩하도록 뉴런에 바이어스를 주는 순환 유닛인 ON-LSTM을 소개한다. 이는 암묵적인 트리와 같은 조합을 가능하게 하고 언어 모델링, 구문 분석, 추론 작업에서 성능을 향상시킨다.

ABSTRACT

Natural language is hierarchically structured: smaller units (e.g., phrases) are nested within larger units (e.g., clauses). When a larger constituent ends, all of the smaller constituents that are nested within it must also be closed. While the standard LSTM architecture allows different neurons to track information at different time scales, it does not have an explicit bias towards modeling a hierarchy of constituents. This paper proposes to add such an inductive bias by ordering the neurons; a vector of master input and forget gates ensures that when a given neuron is updated, all the neurons that follow it in the ordering are also updated. Our novel recurrent architecture, ordered neurons LSTM (ON-LSTM), achieves good performance on four different tasks: language modeling, unsupervised parsing, targeted syntactic evaluation, and logical inference.

연구 동기 및 목표

언어에서 계층적이고 트리와 같은 구조를 동기 부여하고 표준 LSTM이 장기 의존성을 포착하는 데 가진 한계를 해결한다.
Ordered neurons와 cumax 기반 게이팅을 통해 뉴런 시간 스케일을 구분하는 유도 편향을 개발한다.
구성 성분과 유사한 위계 구조를 반영하도록 업데이트에 바이어스를 주는 ON-LSTM 유닛을 구성한다.
언어 모델링, 비지도 구문 분석, 표적 구문 평가 및 논리 추론에서 ON-LSTM을 평가한다.
유도된 잠재 구조가 언어적 구성과 일치하고 일반화가 향상됨을 입증한다.

제안 방법

cumax() 활성화(누적 소프트맥스)를 도입하여 뉴런 간의 순서를 유도하는 단조 게이트 벡터를 생성한다.
cumax를 통해 마스터 포겟/입력 게이트를 정의하고, 뉴런의 전체 블록을 게이트하여 위계적 업데이트 다이나믹스를 가능하게 한다.
마스터 게이트를 표준 LSTM 게이트와 결합하여 c_t와 h_t 업데이트를 생성하는 업데이트 규칙을 도출한다(방정식(11)-(14)).
파라미터 수를 줄이기 위해 뉴런을 청크로 묶어 마스터 게이트를 축소한다.
언어 모델링에서 3-층 ON-LSTM을 학습시키고 구문 분석, 구문 평가 및 논리 추론에서 성능을 평가한다.

실험 결과

연구 질문

RQ1업데이트 빈도에 따라 뉴런의 순서를 정렬하는 유도 편향이 RNN에서 잠재적 트리와 같은 구성(structure)를 생성할 수 있는가?
RQ2유사한 용량의 표준 LSTM에 비해 ON-LSTM이 언어 모델링의 perplexity를 개선하는가?
RQ3ON-LSTM이 인간 주석과 일치하는 비지도 구문 해석을 유도할 수 있는가?
RQ4위계적 업데이트가 표적 구문 평가 및 논리 추론 과제에 이로운가?
RQ5ON-LSTM은 더 긴 시퀀스와 장기 의존성에 어떻게 일반화되는가?

주요 결과

ON-LSTM은 비슷한 용량의 표준 LSTM보다 Penn Treebank 언어 모델링에서 더 나은 perplexity를 달성한다.
ON-LSTM의 두 번째 층은 WSJ 테스트 데이터에서 비지도 구문 해석에서 최첨단 성능을 달성한다.
ON-LSTM은 표적 구문 평가 및 논리 추론 과제에서 장기 의존성 테스트에서 성능이 향상되며, 특히 더 긴 시퀀스에서 두드러진다.
이 모델은 이전의 구조 인식 접근법보다 더 긴 시퀀스로의 일반화가 더 강하다.
ON-LSTM에 의해 추론된 잠재 트리는 ADJP, NP, PP와 같은 언어학적으로 그럴듯한 구성 요소와 대응하며 인간 구문과의 정합성을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.