QUICK REVIEW

[논문 리뷰] Neural Language Modeling by Jointly Learning Syntax and Lexicon

Yikang Shen, Zhouhan Lin|arXiv (Cornell University)|2017. 11. 02.

Topic Modeling참고 문헌 50인용 수 22

한 줄 요약

이 논문은 인간이 태깅한 트리베이스가 필요 없이 비정형 텍스트에서 문법적 구조와 어휘 표현을 함께 학습할 수 있는 미분 가능한 신경 언어 모델인 Parsing-Reading-Predict Networks (PRPN)를 제안한다. 언어 모델링 손실에서 신경 구문 분석 네트워크로까지 순환적 역전파를 가능하게 함으로써, PRPN은 단어 수준 및 문자 수준 언어 모델링에서 최고 수준의 성능을 달성하며, 강력한 비지도 구성 구문 분석 성능을 보이며, 유도된 문법적 구조가 인간이 태깅한 트리와 매우 유사하다는 것을 시사한다.

ABSTRACT

We propose a neural language model capable of unsupervised syntactic structure induction. The model leverages the structure information to form better semantic representations and better language modeling. Standard recurrent neural networks are limited by their structure and fail to efficiently use syntactic information. On the other hand, tree-structured recursive networks usually require additional structural supervision at the cost of human expert annotation. In this paper, We propose a novel neural language model, called the Parsing-Reading-Predict Networks (PRPN), that can simultaneously induce the syntactic structure from unannotated sentences and leverage the inferred structure to learn a better language model. In our model, the gradient can be directly back-propagated from the language model loss into the neural parsing network. Experiments show that the proposed model can discover the underlying syntactic structure and achieve state-of-the-art performance on word/character-level language model tasks.

연구 동기 및 목표

인간이 태깅한 트리베이스가 필요 없이 비정형 텍스트에서 문법적 구조를 유도할 수 있는 신경 언어 모델을 개발하는 것.
대표 표현 학습 과정에 비지도 문법적 구조를 통합하여 언어 모델링 성능을 향상시키는 것.
언어 모델링 목표에서 신경 구문 분석 구성 요소로까지 기울기 역전파를 가능하게 하여, 구조 유도와 언어 모델링을 함께 최적화할 수 있도록 하는 것.
유도된 문법적 구조가 의미적으로 유의미하고 인간이 태깅한 분석 결과와 유사한지 평가하는 것.

제안 방법

모델은 연속적인 단어 쌍 간의 문법적 거리를 계산하기 위해 컨volutional 네트워크 기반의 미분 가능한 신경 구문 분석 네트워크를 사용하여 부드러운 구성 결정을 가능하게 한다.
읽기 네트워크는 문법적으로 관련된 이전 토큰들에 주의를 기울여 적응적인 메모리 표현을 계산하며, 구조 인식 주의 메커니즘을 사용해 스킵 연결을 제어한다.
예측 네트워크는 동일한 구조 인식 주의 메커니즘을 사용하여 모든 문법적으로 관련된 이전 표현 기반으로 다음 토큰을 생성한다.
전체 아키텍처는 언어 모델링 손실에서 구문 분석 네트워크로 기울기가 흐르도록 순환적 역전파를 통해 엔드 투 엔드로 훈련되며, 공동 최적화를 가능하게 한다.
구문 분석 네트워크는 학습된 문법적 거리 기반으로 토큰을 반복적으로 조합하여 이진 트리를 생성하며, 주의 게이트가 표현의 조합을 제어한다.
모델은 PTB와 WSJ10과 같은 표준 벤치마크를 사용하여 단어 수준 및 문자 수준 언어 모델링, 그리고 비지도 구성 구문 분석에서 평가된다.

실험 결과

연구 질문

RQ1인간이 태깅한 트리베이스가 필요 없이 신경 언어 모델이 문법적 구조를 함께 유도하고 언어 모델링 성능을 향상시킬 수 있는가?
RQ2미분 가능하고 비지도 문법적 구조를 통합할 경우, 순환 네트워크의 대표 표현 학습에 얼마나 기여하는가?
RQ3PRPN이 유도한 문법적 구조는 인간이 태깅한 구성 구문 분석 결과와 얼마나 유사한가?
RQ4신경 구문 분석 모듈을 통해 엔드 투 엔드 역전파가 가능할 경우, 기존 RNN이나 감독 학습 기반 구문 분석 방법보다 언어 모델링 성능이 향상되는가?

주요 결과

PRPN은 Text8 데이터셋에서 테스트 퍼플렉서티 81.64를 기록하며, 단어 수준 언어 모델링에서 최고 수준 또는 거의 최고 수준의 성능을 달성한다.
문자 수준 언어 모델링에서는 테스트 퍼플렉서티 109.7을 기록하며, 이는 이전의 비지도 모델을 능가하고 감독 학습 모델의 성능에 근접한다.
WSJ10 데이터셋에서 비지도 구성 구문 분석을 수행한 결과, 레이블 없는 F1 스코어 70.02를 기록하며, 무작위 기반 모델보다 유의미하게 뛰어나고 CCM과 같은 강력한 비지도 모델과 경쟁 수준의 성능을 보였다.
제거 실험 결과, 구문 분석 네트워크를 제거할 경우 성능이 크게 떨어지며, 이는 문법적 구조가 언어 모델링 성능 향상에 기여한다는 경험적 증거를 제공한다.
유도된 구문 트리의 시각화 결과, 모델이 일관되고 인간과 유사한 문법적 구조를 학습하는 것으로 나타나, 내부 표현이 의미적으로 유의미하다는 것을 시사한다.
예측 헤드에 연속적 캐시 포인터를 적용할 경우 성능 향상이 이루어지며, 이는 아키텍처가 고급 최적화 기법과 호환됨을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.