[논문 리뷰] Understanding and Improving Layer Normalization
본 논문은 평균과 분산의 도함수가 LayerNorm의 효과를 좌우하지 않고, 순방향 정규화가 아니라는 것을 보여주며, 바이어스/게인을 적응 변환으로 대체하는 AdaNorm을 도입하여 대부분의 작업에서 성능을 향상시킵니다.
Layer normalization (LayerNorm) is a technique to normalize the distributions of intermediate layers. It enables smoother gradients, faster training, and better generalization accuracy. However, it is still unclear where the effectiveness stems from. In this paper, our main contribution is to take a step further in understanding LayerNorm. Many of previous studies believe that the success of LayerNorm comes from forward normalization. Unlike them, we find that the derivatives of the mean and variance are more important than forward normalization by re-centering and re-scaling backward gradients. Furthermore, we find that the parameters of LayerNorm, including the bias and gain, increase the risk of over-fitting and do not work in most cases. Experiments show that a simple version of LayerNorm (LayerNorm-simple) without the bias and gain outperforms LayerNorm on four datasets. It obtains the state-of-the-art performance on En-Vi machine translation. To address the over-fitting problem, we propose a new normalization method, Adaptive Normalization (AdaNorm), by replacing the bias and gain with a new transformation function. Experiments show that AdaNorm demonstrates better results than LayerNorm on seven out of eight datasets.
연구 동기 및 목표
- LayerNorm이 입력의 순방향 정규화 이상으로 무엇이 효과적인가를 조사한다.
- LayerNorm에서 바이어스와 게인의 역할과 그것들이 과적합에 미치는 영향을 평가한다.
- 평균과 분산의 도함수에 의해 역방향 그래디언트가 어떻게 영향을 받는지 분석한다.
- 바이어스/게인을 적응 변환으로 대체하는 AdaNorm를 제안하고 그 성능을 평가한다.
제안 방법
- 다양한 작업에서 LayerNorm 변형을 재현하고 Norm 없이(w/o Norm) 기준선과 비교한다.
- 평균과 분산의 도함수를 분리(detach)하는 DetachNorm를 도입하고 순전향/역전 효과에 대한 영향을 측정한다.
- 평균/분산 도함수를 통해 LayerNorm의 그래디언트 재중심화 및 재스케일링을 이론적으로 분석한다(정리 1).
- 정규화된 특징에 적용된 변환 phi(y)로 AdaNorm를 제안하고 미분 가능성과 평균 출력의 상한을 보장한다(정리 2).
- MT, LM, 분류, 구문 분석, OCR, NLP 작업에 걸친 여덟 개 데이터셋에서 LayerNorm, LayerNorm-simple, DetachNorm, AdaNorm를 실증적으로 비교한다.
실험 결과
연구 질문
- RQ1LayerNorm의 효과를 좌우하는 것은 순방향 정규화인가, 아니면 평균/분산의 도함수에 의한 그래디언트 효과인가?
- RQ2바이어스와 게인은 긍정적으로 기여하는가, 아니면 작업 전반에서 과적합을 유발하는가?
- RQ3그래디언트 정규화(평균/분산의 도함수)가 LayerNorm의 학습 행동과 성능을 설명할 수 있는가?
- RQ4적응형 정규화(AdaNorm)가 입력 의존 스케일링으로 고정된 선형 변환 파라미터를 대체함으로써 LayerNorm을 능가하는가?
주요 결과
| 모델 | En-De (BLEU) | De-En (BLEU) | En-Vi (BLEU) | Enwiki8 (Bits/char) | RT (ACC) | SST5 (ACC) | MNIST (ACC) | PTB (UAC) |
|---|---|---|---|---|---|---|---|---|
| w/o Norm | Diverge | 34.0 | 28.4 | 1.04 | 76.85 | 38.55 | 99.14 | 88.31 |
| LayerNorm | 28.3 | 35.5 | 31.2 | 1.07 | 77.21 | 39.23 | 99.13 | 89.12 |
| LayerNorm-simple | 28.4 | 35.5 | 31.6 | 1.07 | 76.66 | 40.54 | 99.09 | 89.19 |
| AdaNorm | 28.5 | 35.6 | 31.4 | 1.07 | 77.50 | 40.54 | 99.35 | 89.23 |
- Forward normalization은 LayerNorm의 성공을 설명하는 데 한계가 있으며, 평균과 분산의 도함수가 더 중요한 요인이다.
- 평균/분산의 도함수를 분리한 DetachNorm가 성능을 저하시켜, 그래디언트 정규화가 최적화에 도움을 준다는 것을 시사한다(특히 더 깊은 모델에서).
- LayerNorm-simple(바이어스/게인 없음)은 여러 데이터셋에서 LayerNorm과 맞먹거나 능가하며 En-Vi MT에서 최첨단 성능을 달성할 수 있다.
- 바이어스와 게인은 과적합을 증가시키는 경향이 있으며, 작업 전반에서 효과적이지 않은 경우가 많다.
- AdaNorm은 바이어스/게인을 적응형 phi(y)로 대체하여 8개 데이터셋 중 7개에서 LayerNorm보다 우수한 일반화 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.