QUICK REVIEW

[논문 리뷰] Exploring the Limits of Language Modeling

Rafał Józefowicz, Oriol Vinyals|arXiv (Cornell University)|2016. 02. 07.

Topic Modeling참고 문헌 51인용 수 915

한 줄 요약

이 논문은 One Billion Word Benchmark에서 매우 큰 LSTM 기반 언어 모델을 훈련시키고, CNN 기반 Softmax와 문자 수준 임베딩을 도입하여 파라미터 수와 perplexity를 크게 줄이며, 단일 모델과 앙상블로 최첨단 성능을 달성합니다.

ABSTRACT

In this work we explore recent advances in Recurrent Neural Networks for large scale Language Modeling, a task central to language understanding. We extend current models to deal with two key challenges present in this task: corpora and vocabulary sizes, and complex, long term structure of language. We perform an exhaustive study on techniques such as character Convolutional Neural Networks or Long-Short Term Memory, on the One Billion Word Benchmark. Our best single model significantly improves state-of-the-art perplexity from 51.3 down to 30.0 (whilst reducing the number of parameters by a factor of 20), while an ensemble of models sets a new record by improving perplexity from 41.0 down to 23.7. We also release these models for the NLP and ML community to study and improve upon.

연구 동기 및 목표

PTB를 넘어 One Billion Word Benchmark를 사용하여 대규모에서의 언어 모델링을 동기 부여하고 연구한다.
아키텍처 혁신(LSTMs with projections, dropout, CNN-based embeddings)을 통해 파라미터 수를 줄이면서 perplexity를 개선한다.
샘플링 기반 손실과 규제 전략을 통해 학습 시간 효율성과 데이터 효율성을 조사한다.
대규모 LM 연구를 가속화하기 위해 오픈 소스 모델과 학습 레시피를 제공한다.

제안 방법

투사/병목 계층이 있는 대규모 순환 신경망(LSTMs)을 사용한다.
파라미터 수를 줄이기 위해 CNN 기반의 단어 임베딩과 CNN 기반의 Softmax(eW = CNN(chars_w))를 도입한다.
전체 Softmax의 효율적인 대안으로 중요도 샘플링(IS) 손실을 사용하고 이를 Noise Contrastive Estimation(NCE)와 연계한다.
장-tail 및 OOV 단어를 다루기 위해 단어 수준 모델과 문자 수준 LSTM 예측기(Char LSTM)를 하이브리드로 결합한다.
순환 비연결에 드롭아웃을 적용하고, 대규모 배치 비동기 GPU 학습 및 AdaGrad 최적화를 사용한다.
데이터로 1B Word Benchmark를 사용하고 모델/레시피를 공개한다.

실험 결과

연구 질문

RQ1LSTM 기반 언어 모델이 매우 큰 어휘와 데이터셋으로 확장되더라도 perplexity를 유지하거나 개선할 수 있는가?
RQ2문자 수준 임베딩과 CNN 기반 Softmax가 성능을 희생하지 않으면서 파라미터 수를 줄일 수 있는가?
RQ3IS와 NCE 손실은 대규모 LM 학습에서 어떻게 비교되며 IS가 데이터 효율적인가?
RQ4모델 크기, 규제 및 앙상블 방법이 perplexity와 꼬리 단어 성능에 미치는 영향은 무엇인가?
RQ5CNN 기반 및 하이브리드 단어-문자 접근 방식이 OOV 단어 및 다국어/형태학적으로 풍부한 텍스트를 더 잘 처리할 수 있는가?

주요 결과

Model	Test Perplexity	Number of Params [billions]
Sigmoid-RNN-2048 ( Ji et al., 2015a )	68.3	4.1
Interpolated KN 5-gram, 1.1B n-grams ( Chelba et al., 2013 )	67.6	1.76
Sparse Non-Negative Matrix LM ( Shazeer et al., 2015 )	52.9	33
RNN-1024 + MaxEnt 9-gram features ( Chelba et al., 2013 )	51.3	20
LSTM-512-512	54.1	0.82
LSTM-1024-512	48.2	0.82
LSTM-2048-512	43.7	0.83
LSTM-8192-2048 (No Dropout)	37.9	3.3
LSTM-8192-2048 (50% Dropout)	32.2	3.3
2-Layer LSTM-8192-1024 (BIG LSTM)	30.6	1.8
BIG LSTM+CNN Inputs	30.0	1.04
BIG LSTM+CNN Inputs + CNN Softmax	39.8	0.29
BIG LSTM+CNN Inputs + CNN Softmax + 128-dim correction	35.8	0.39
BIG LSTM+CNN Inputs + Char LSTM predictions	47.9	0.23

단일 최적 모델이 파 perplexity 30.0, 파라미터 수 1.04B(BIG LSTM+CNN Inputs).
128-dim 보정을 가진 CNN Softmax가 성능을 개선하여 perplexity 35.8, 파라미터 수 0.39B에 도달.
문자 CNN 임베딩은 입력 계층 파라미터를 약 11배 감소시키면서도 경쟁력 있는 성능을 유지(72M vs 820M).
IS 손실은 대규모 LM 학습에서 NCE보다 학습 속도와 최종 perplexity에서 우수한 성능을 보인다.
보조 구성 요소를 포함한 10개의 LSTM 앙상블은 perplexity를 23.7로 크게 개선, 이전 연구 대비 큰 향상.
tail 단어는 로그-확률 분석에서 KN-5보다 LSTM이 더 잘 모델하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.