Skip to main content
QUICK REVIEW

[논문 리뷰] Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations

David Krueger, Tegan Maharaj|PolyPublie (École Polytechnique de Montréal)|2016. 06. 03.
Topic Modeling참고 문헌 23인용 수 173
한 줄 요약

Zoneout은 RNN의 숨겨진 활성화를 확률적으로 보존하여 시계열 축 연결을 만들어 그래디언트 흐름과 일반화를 개선합니다. 언어 모델링과 permuted sequential MNIST에서 경쟁력 있거나 최첨단 성능을 달성합니다.

ABSTRACT

We propose zoneout, a novel method for regularizing RNNs. At each timestep, zoneout stochastically forces some hidden units to maintain their previous values. Like dropout, zoneout uses random noise to train a pseudo-ensemble, improving generalization. But by preserving instead of dropping hidden units, gradient information and state information are more readily propagated through time, as in feedforward stochastic depth networks. We perform an empirical investigation of various RNN regularizers, and find that zoneout gives significant performance improvements across tasks. We achieve competitive results with relatively simple models in character- and word-level language modelling on the Penn Treebank and Text8 datasets, and combining with recurrent batch normalization yields state-of-the-art results on permuted sequential MNIST.

연구 동기 및 목표

  • 반응성 있는 일반화 흐름을 해치지 않으면서 순환 신경망의 일반화를 강화하기 위한 강건한 정규화를 동기 부여합니다.
  • 숨겨진 상태 및 셀의 확률적 동일성 보존으로 Zoneout을 도입합니다.
  • 다수의 RNN 과제에서 드롭아웃 및 다른 정규화 기법과 Zoneout을 경험적으로 비교합니다.
  • Penn Treebank, Text8, 그리고 permuted MNIST에서 경쟁력 있는 성능을 보여주고, 순환 배치 정규화와의 조합을 포함합니다.

제안 방법

  • Zoneout을 순환 전이와 항등 매핑의 확률적 혼합으로 정의하며 단위별 Bernoulli 마스크로 제어합니다.
  • 드롭아웃과 유사한 노이즈 주입으로 학습하되 과거 활성화를 0으로 만들지 않고 보존합니다.
  • LSTM에서 셀과 숨겨진 상태에 별도의 Zoneout 마스크를 적용합니다; 게이트 간에 마스크를 공유하거나 관련 구성요소에 입력 드롭아웃 마스크를 재사용할 수 있습니다.
  • 테스트 시 노이즈의 기대값을 사용하여 순방향/역방향 흐름의 안정성을 유지합니다.
  • Zoneout을 순환 드롭아웃, 가중치 노이즈, 정규화 안정화 기법, RNN의 확률적 깊이 비교합니다.
  • 문자- 및 단어 수준의 언어 모델링과 permuted sequential MNIST에서 평가하며 마스크 확률에 대한 제거 실험(ablation studies)을 포함합니다.

실험 결과

연구 질문

  • RQ1Zoneout이 표준 드롭아웃 및 다른 정규화 기법과 비교할 때 RNN의 일반화를 개선합니까?
  • RQ2태스크 전반에 걸쳐 성능을 극대화하기 위해 Zoneout은 어떻게 구성해야 합니까(셀 대 숨겨진 상태의 확률)?
  • RQ3Zoneout이 초기 시점으로의 그래디언트 흐름을 개선하여 소실/발산 그래디언트 문제를 완화합니까?
  • RQ4다른 정규화 기법과 결합했을 때 Zoneout이 최첨단 결과를 달성할 수 있습니까?
  • RQ5Vanilla RNN, LSTM, GRU 전반에 Zoneout이 적용 가능합니까?

주요 결과

Char-PTB (Valid)Char-PTB (Test)Word-PTB (Valid)Word-PTB (Test)Text8 (Valid)Text8 (Test)
1.4661.356120.7114.51.3961.408
1.5071.3441.3561.367
1.4591.3521.3821.398
1.4321.343
1.3621.2520 81.40 77.41.3311.336
0 82.20 78.4
  • Zoneout은 문자- 및 단어 수준의 언어 모델링과 pMNIST에서 여러 baselines 대비 일반화를 개선합니다.
  • 문자 수준 PTB에서 zc=0.5 및 zh=0.05로 Zoneout을 사용하면 1.27 BPC를 달성하며 최첨단 방법과 경쟁합니다.
  • 단어 수준 PTB에서 순환 연결과 함께 Zoneout을 사용하면 테스트 perplexity가 78.4에서 77.4로 개선되며 강력한 베이스라인에서 성능이 향상되고 피드포워드 드롭아웃과의 혼합이 결과를 강화합니다.
  • Text8에서 Zoneout은 비정규화된 LSTM 및 다른 정규화 기법과 비교하여 경쟁력 있는 학습/검증 곡선을 제공합니다.
  • pMNIST에서 Zoneout은 순환 드롭아웃을 능가하고 순환 배치 정규화(RBN)와 결합될 때 최첨단으로 올라섭니다.
  • 그래디언트 흐름 분석은 Zoneout이 드롭아웃보다 초기 시점까지의 그래디언트 정보를 보다 효과적으로 보존한다는 것을 보여주며, 정규화의 이점을 뒷받침합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.