QUICK REVIEW

[논문 리뷰] Regularizing and Optimizing LSTM Language Models

Stephen Merity, Nitish Shirish Keskar|arXiv (Cornell University)|2017. 08. 07.

Topic Modeling참고 문헌 31인용 수 468

한 줄 요약

본 논문은 AWD-LSTM(가중치 드롭 LSTM)과 NT-ASGD를 도입하여 LSTM 언어 모델의 정규화와 최적화를 수행하고, Penn Treebank와 WikiText-2에서 최첨단 perplexities를 달성하며, 신경 캐시로 추가 이득을 얻는다.

ABSTRACT

Recurrent neural networks (RNNs), such as long short-term memory networks (LSTMs), serve as a fundamental building block for many sequence learning tasks, including machine translation, language modeling, and question answering. In this paper, we consider the specific problem of word-level language modeling and investigate strategies for regularizing and optimizing LSTM-based models. We propose the weight-dropped LSTM which uses DropConnect on hidden-to-hidden weights as a form of recurrent regularization. Further, we introduce NT-ASGD, a variant of the averaged stochastic gradient method, wherein the averaging trigger is determined using a non-monotonic condition as opposed to being tuned by the user. Using these and other regularization strategies, we achieve state-of-the-art word level perplexities on two data sets: 57.3 on Penn Treebank and 65.8 on WikiText-2. In exploring the effectiveness of a neural cache in conjunction with our proposed model, we achieve an even lower state-of-the-art perplexity of 52.8 on Penn Treebank and 52.0 on WikiText-2.

연구 동기 및 목표

과도하게 매개변수가 많은 RNN에서 LSTM 구현을 변경하지 않고도 효과적인 정규화를 유도한다.
recurrent 정규화를 위한 가중치 드롭 LSTM(DropConnect on hidden-to-hidden weights) 제안.
정규화된 LSTMs의 학습을 개선하기 위한 최적화 전략, 특히 NT-ASGD를 조사한다.
데이터 효율성과 일반화 향상을 위해 가변 길이 BPTT, 임베딩 드롭아웃, AR/TAR, 가중치 타이링 등 확장 정규화를 탐구한다.
PTB와 WT2에서 최첨단 perplexities를 확립하고 신경 캐시의 이득을 평가한다.

제안 방법

순환 가중 행렬에 DropConnect를 적용하여 LSTM 내부를 수정하지 않고도 순환 연결을 정규화하는 가중치 드롭 LSTM을 도입한다.
고정 학습률을 사용하는 비단조 트리거 버전의 평균 SGD인 NT-ASGD를 사용하여 학습 안정성과 성능을 개선한다.
학습 중 데이터 활용을 늘리기 위해 가변 길이의 backpropagation through time을 적용한다.
모델의 서로 다른 부분에 대해 임베딩 드롭아웃과 변분 드롭아웃을 적용한다.
매개변수를 줄이고 일반화를 개선하기 위해 임베딩 및 소프트맥스 가중치 타이링을 적용한다.
최종 LSTM 계층 출력에 활성화 정규화(AR)와 시간적 활성화 정규화(TAR)를 적용한다.

실험 결과

연구 질문

RQ1은닉-은닉 가중치의 DropConnect를 통한 순환 정규화가 LSTM 구현을 바꾸지 않고도 단어 수준 언어 모델의 일반화를 개선할 수 있는가?
RQ2NT-ASGD가 언어 모델링용 정규화된 LSTMs의 학습에서 표준 SGD/ASGD에 비해 실용적이고 성능상의 이점을 제공하는가?
RQ3확장 정규화 기법들(가변 길이 BPTT, 임베딩 드롭아웃, AR/TAR, 가중치 타이링)이 PTB와 WT2의 perplexity에 어떤 영향을 미치는가?
RQ4신경 캐시가 AWD-LSTM과 어떻게 상호 작용하여 PTB와 WT2의 perplexity를 추가로 줄일 수 있는가?

주요 결과

AWD-LSTM은 Vanilla LSTM을 사용했을 때 Penn Treebank에서 단어 수준 perplexity 57.3 및 WikiText-2에서 65.8로 최첨단을 달성한다.
AWD-LSTM 위에 신경 캐시를 적용하면 perplexity가 PTB에서 52.8, WT2에서 52.0으로 추가 향상된다.
NT-ASGD는 비단조 평균화 트리거를 사용하여 이 규정된 LSTM의 학습에서 SGD 기반 학습을 능가한다.
확장 정규화 기법들(가변 길이 BPTT, 임베딩 드롭아웃, AR/TAR, 가중치 타이링)은 perplexity와 데이터 효율성에 큰 향상을 기여한다.
가중치 드롭 LSTM(DropConnect on recurrent weights)은 중요한 요소이며, 이를 제거하면 perplexity가 크게 상승한다(최대 11포인트까지).
NT-ASGD 이후 ASGD를 미세 조정하면 추가 이득이 있으며, 이 단계를 제거하면 성능이 저하된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.