Skip to main content
QUICK REVIEW

[논문 리뷰] Regularizing and Optimizing LSTM Language Models

Stephen Merity, Nitish Shirish Keskar|arXiv (Cornell University)|2017. 08. 07.
Topic Modeling참고 문헌 31인용 수 468
한 줄 요약

본 논문은 AWD-LSTM(가중치 드롭 LSTM)과 NT-ASGD를 도입하여 LSTM 언어 모델의 정규화와 최적화를 수행하고, Penn Treebank와 WikiText-2에서 최첨단 perplexities를 달성하며, 신경 캐시로 추가 이득을 얻는다.

ABSTRACT

Recurrent neural networks (RNNs), such as long short-term memory networks (LSTMs), serve as a fundamental building block for many sequence learning tasks, including machine translation, language modeling, and question answering. In this paper, we consider the specific problem of word-level language modeling and investigate strategies for regularizing and optimizing LSTM-based models. We propose the weight-dropped LSTM which uses DropConnect on hidden-to-hidden weights as a form of recurrent regularization. Further, we introduce NT-ASGD, a variant of the averaged stochastic gradient method, wherein the averaging trigger is determined using a non-monotonic condition as opposed to being tuned by the user. Using these and other regularization strategies, we achieve state-of-the-art word level perplexities on two data sets: 57.3 on Penn Treebank and 65.8 on WikiText-2. In exploring the effectiveness of a neural cache in conjunction with our proposed model, we achieve an even lower state-of-the-art perplexity of 52.8 on Penn Treebank and 52.0 on WikiText-2.

연구 동기 및 목표

  • 과도하게 매개변수가 많은 RNN에서 LSTM 구현을 변경하지 않고도 효과적인 정규화를 유도한다.
  • recurrent 정규화를 위한 가중치 드롭 LSTM(DropConnect on hidden-to-hidden weights) 제안.
  • 정규화된 LSTMs의 학습을 개선하기 위한 최적화 전략, 특히 NT-ASGD를 조사한다.
  • 데이터 효율성과 일반화 향상을 위해 가변 길이 BPTT, 임베딩 드롭아웃, AR/TAR, 가중치 타이링 등 확장 정규화를 탐구한다.
  • PTB와 WT2에서 최첨단 perplexities를 확립하고 신경 캐시의 이득을 평가한다.

제안 방법

  • 순환 가중 행렬에 DropConnect를 적용하여 LSTM 내부를 수정하지 않고도 순환 연결을 정규화하는 가중치 드롭 LSTM을 도입한다.
  • 고정 학습률을 사용하는 비단조 트리거 버전의 평균 SGD인 NT-ASGD를 사용하여 학습 안정성과 성능을 개선한다.
  • 학습 중 데이터 활용을 늘리기 위해 가변 길이의 backpropagation through time을 적용한다.
  • 모델의 서로 다른 부분에 대해 임베딩 드롭아웃과 변분 드롭아웃을 적용한다.
  • 매개변수를 줄이고 일반화를 개선하기 위해 임베딩 및 소프트맥스 가중치 타이링을 적용한다.
  • 최종 LSTM 계층 출력에 활성화 정규화(AR)와 시간적 활성화 정규화(TAR)를 적용한다.

실험 결과

연구 질문

  • RQ1은닉-은닉 가중치의 DropConnect를 통한 순환 정규화가 LSTM 구현을 바꾸지 않고도 단어 수준 언어 모델의 일반화를 개선할 수 있는가?
  • RQ2NT-ASGD가 언어 모델링용 정규화된 LSTMs의 학습에서 표준 SGD/ASGD에 비해 실용적이고 성능상의 이점을 제공하는가?
  • RQ3확장 정규화 기법들(가변 길이 BPTT, 임베딩 드롭아웃, AR/TAR, 가중치 타이링)이 PTB와 WT2의 perplexity에 어떤 영향을 미치는가?
  • RQ4신경 캐시가 AWD-LSTM과 어떻게 상호 작용하여 PTB와 WT2의 perplexity를 추가로 줄일 수 있는가?

주요 결과

  • AWD-LSTM은 Vanilla LSTM을 사용했을 때 Penn Treebank에서 단어 수준 perplexity 57.3 및 WikiText-2에서 65.8로 최첨단을 달성한다.
  • AWD-LSTM 위에 신경 캐시를 적용하면 perplexity가 PTB에서 52.8, WT2에서 52.0으로 추가 향상된다.
  • NT-ASGD는 비단조 평균화 트리거를 사용하여 이 규정된 LSTM의 학습에서 SGD 기반 학습을 능가한다.
  • 확장 정규화 기법들(가변 길이 BPTT, 임베딩 드롭아웃, AR/TAR, 가중치 타이링)은 perplexity와 데이터 효율성에 큰 향상을 기여한다.
  • 가중치 드롭 LSTM(DropConnect on recurrent weights)은 중요한 요소이며, 이를 제거하면 perplexity가 크게 상승한다(최대 11포인트까지).
  • NT-ASGD 이후 ASGD를 미세 조정하면 추가 이득이 있으며, 이 단계를 제거하면 성능이 저하된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.