QUICK REVIEW

[논문 리뷰] Rethinking Batch Normalization in Transformers

Sheng Shen, Zhewei Yao|arXiv (Cornell University)|2020. 03. 17.

Advanced Neural Network Applications인용 수 5

한 줄 요약

이 논문은 자연어 처리(NLP)에서 트랜스포머에 대한 새로운 정규화 기법인 파워 정규화(Power Normalization, PN)를 제안한다. 이는 NLP 데이터에서 발생하는 높은 배치 수준 통계 변동성으로 인해 기존 배치 정규화(BN)가 불안정해지는 문제를 해결한다. 영구 평균 제약 조건을 완화하고, 달리 누적된 제곱 평균을 사용하며, 근사 역전파를 적용함으로써 PN은 BN과 레이어 정규화(LN)보다 더 뛰어난 학습 안정성과 성능을 달성한다. WMT14에서 LN 대비 0.6 BLEU 향상, WikiText-103에서 5.6 PPL 향상으로 성능을 뛰어나게 개선한다.

ABSTRACT

The standard normalization method for neural network (NN) models used in Natural Language Processing (NLP) is layer normalization (LN). This is different than batch normalization (BN), which is widely-adopted in Computer Vision. The preferred use of LN in NLP is principally due to the empirical observation that a (naive/vanilla) use of BN leads to significant performance degradation for NLP tasks; however, a thorough understanding of the underlying reasons for this is not always evident. In this paper, we perform a systematic study of NLP transformer models to understand why BN has a poor performance, as compared to LN. We find that the statistics of NLP data across the batch dimension exhibit large fluctuations throughout training. This results in instability, if BN is naively implemented. To address this, we propose Power Normalization (PN), a novel normalization scheme that resolves this issue by (i) relaxing zero-mean normalization in BN, (ii) incorporating a running quadratic mean instead of per batch statistics to stabilize fluctuations, and (iii) using an approximate backpropagation for incorporating the running statistics in the forward pass. We show theoretically, under mild assumptions, that PN leads to a smaller Lipschitz constant for the loss, compared with BN. Furthermore, we prove that the approximate backpropagation scheme leads to bounded gradients. We extensively test PN for transformers on a range of NLP tasks, and we show that it significantly outperforms both LN and BN. In particular, PN outperforms LN by 0.4/0.6 BLEU on IWSLT14/WMT14 and 5.6/3.0 PPL on PTB/WikiText-103. We make our code publicly available at \url{this https URL}.

연구 동기 및 목표

기본 배치 정규화(BN)가 NLP 트랜스포머에서 레이어 정규화(LN)보다 성능이 열 劣하는 이유를 탐구하는 것.
NLP에서 BN의 성능 열 劣의 근본 원인, 특히 큰 배치 수준 통계 변동성으로 인한 불안정성의 원인을 규명하는 것.
이러한 변동성을 다루면서도 학습 효율성을 유지하는 새로운 정규화 체계를 설계하는 것.
약간의 가정 하에 손실 함수에 대해 더 작은 리프시츠 상수를 보여주는 이론적 근거를 제시하는 것.

제안 방법

배치 정규화에서 영구 평균 제약 조건을 완화하여 배치 수준 통계에 대한 민감도를 줄이는 것.
각 배치 통계를 달리 누적된 제곱 평균으로 대체하여 학습 단계 전반에 걸쳐 통계의 안정성을 높이는 것.
역전파 과정에서 달리 누적된 통계를 전방전파에 통합하여 더 나은 기울기 흐름을 확보하기 위한 근사 역전파 기법을 도입하는 것.
이론적 분석을 통해 PN이 약간의 가정 하에 손실 함수에 대해 더 작은 리프시츠 상수를 갖는다는 것을 보여주는 것.
근사 역전파 기법이 유한한 기울기를 보장함으로써 학습 안정성을 향상시킨다는 것을 증명하는 것.
이 방법을 트랜스포머 아키텍처에 통합하고 여러 NLP 벤치마크에서 평가하는 것.

실험 결과

연구 질문

RQ1왜 표준 배치 정규화는 레이어 정규화 대비 NLP 트랜스포머에서 성능이 열 劣하는가?
RQ2어떤 특정한 NLP 데이터 성질이 간단한 배치 정규화를 사용할 경우 불안정성을 유발하는가?
RQ3달리 누적된 통계를 사용하는 수정된 정규화 체계가 NLP에서 학습 안정성과 성능 향상에 기여할 수 있는가?
RQ4제안된 정규화 방법이 기존 방법보다 더 나은 일반화 성능과 더 빠른 수렴 속도를 보일 수 있는가?
RQ5제안된 방법에 대해 유한한 기울기와 감소된 리프시츠 상수와 같은 이론적 보장 조건을 확립할 수 있는가?

주요 결과

파워 정규화(PN)는 IWSLT14에서 레이어 정규화(LN)를 크게 능가하여 BLEU 점수를 0.4 향상시켰다.
WMT14에서 PN은 LN 대비 0.6 BLEU 향상으로 번역 작업 전반에 걸쳐 일관된 성능 향상을 보였다.
PTB 언어 모델링 벤치마크에서 PN은 LN 대비 5.6점의 퍼플렉서티 감소를 기록했다.
WikiText-103에서 PN은 LN 대비 3.0 퍼플렉서티 향상으로 더 강력한 언어 모델링 성능을 보였다.
이론적 분석을 통해 PN이 약간의 가정 하에 BN보다 손실 함수에 대해 더 작은 리프시츠 상수를 갖는다는 것이 확인되었다.
PN의 근사 역전파 기법은 기울기가 유한하게 유지됨을 보여주어 학습 안정성에 기여했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.