QUICK REVIEW

[논문 리뷰] Larger-Context Language Modelling

Tian Wang, Kyunghyun Cho|arXiv (Cornell University)|2015. 11. 11.

Topic Modeling참고 문헌 31인용 수 46

한 줄 요약

이 논문은 주로 문맥 수준의 맥락을 통합하는 늦은 융합 기반의 어텐션 기반 문장 인코딩을 통해 순환 신경망 언어 모델의 성능을 햖थ한 더 큰 맥락 언어 모델을 제안한다. 이 방법은 표준 자동회귀 모델 대비 문서 수준의 주제 모델링을 향상시켜, 특히 명사, 형용사, 동사와 같은 내용어에 대해 퍼즐리티를 크게 감소시킨다.

ABSTRACT

In this work, we propose a novel method to incorporate corpus-level discourse information into language modelling. We call this larger-context language model. We introduce a late fusion approach to a recurrent language model based on long short-term memory units (LSTM), which helps the LSTM unit keep intra-sentence dependencies and inter-sentence dependencies separate from each other. Through the evaluation on three corpora (IMDB, BBC, and PennTree Bank), we demon- strate that the proposed model improves perplexity significantly. In the experi- ments, we evaluate the proposed approach while varying the number of context sentences and observe that the proposed late fusion is superior to the usual way of incorporating additional inputs to the LSTM. By analyzing the trained larger- context language model, we discover that content words, including nouns, adjec- tives and verbs, benefit most from an increasing number of context sentences. This analysis suggests that larger-context language model improves the unconditional language model by capturing the theme of a document better and more easily.

연구 동기 및 목표

문장 수준의 의존성 이상의 코퍼스 수준의 논의 맥락을 통합함으로써 신경망 언어 모델링을 향상시키는 것.
표준 RNN 언어 모델이 문장 간 상호 독립성을 가정한다는 한계를 해결하는 것.
더 큰 맥락이 퍼즐리티를 향상시키는지, 그리고 기능어보다 내용어가 더 많이 이득을 보는지 조사하는 것.
LSTM 유닛에 맥락을 통합하기 위한 늦은 융합과 이른 융합 전략을 비교하는 것.
맥락 길이가 모델 성능과 품사 카테고리별 단어 예측 가능성에 미치는 영향을 분석하는 것.

제안 방법

입력 게이트에 조기에 맥락 벡터를 공급하는 대신, 각 시간 단계에서 이전 문장들로부터 유도된 맥락 벡터를 LSTM 은닉 상태와 연결하는 늦은 융합 방식을 제안한다.
백오프 워드(BoW) 또는 순차적 BoW 표현과 어텐션 기반 메커니즘을 사용하여 다수의 맥락 문장을 하나의 맥락 벡터로 압축한다.
맥락 문장들에 대한 어텐션 메커니즘을 적용하여 그들의 관련성을 동적으로 가중함으로써 맥락 표현의 품질을 향상시킨다.
다음 단어 예측의 퍼즐리티를 최소화하기 위해 교차 엔트로피 손실을 사용하여 모델을 종합적으로 훈련한다.
내부 문장 간 및 문장 간 의존성을 별도로 처리하는 늦은 융합을 통해 수정된 LSTM 아키텍처를 적용한다.
분석을 위해 스탠포드 품사 태거를 사용하여 단어를 분류하고, 품사 태그별 퍼즐리티를 계산한다.

실험 결과

연구 질문

RQ1다수의 이전 문장들로부터의 논의 수준 맥락을 통합함으로써 표준 자동회귀 모델 대비 언어 모델의 퍼즐리티가 향상되는가?
RQ2성능 및 일반화 능력 측면에서 LSTM 은닉 상태에 맥락 벡터를 융합하는 늦은 융합이 이른 융합보다 우수한가?
RQ3내용어(명사, 형용사, 동사)가 기능어(예: 대명사, 관형사)보다 더 큰 맥락에서 더 많은 이득을 보는가?
RQ4맥락 문장의 수가 모델 성능과 단어 예측 가능성에 어떤 영향을 미치는가?
RQ5어텐션 메커니즘이 장기간의 맥락 시퀀스를 의미 있는 벡터로 효과적으로 압축할 수 있는가?

주요 결과

표준 RNN 언어 모델 대비 IMDB, BBC, Penn Treebank에서 더 큰 맥락 언어 모델이 단어당 퍼즐리티를 크게 감소시켰다.
모든 데이터셋과 맥락 길이에서 늦은 융합 전략이 이른 융합 전략보다 성능이 뛰어나, 논의 맥락을 통합하는 데 효과적임을 입증했다.
내용어인 명사, 형용사, 동사가 맥락 길이가 길어질수록 예측 가능성에서 가장 큰 향상을 보였다(가장 낮은 퍼즐리티).
대명사(PRPN), 관형사(DT), 연결어조인어(CC)와 같은 기능어는 더 많은 맥락을 제공할수록 퍼즐리티가 약간 악화되어 모델 용량의 상충관계를 보였다.
주제적 의존성을 더 잘 포착함으로써 문서 수준의 통일성을 향상시켜, 개방형 어휘와 내용이 풍부한 단어에서 성능 향상이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.