[논문 리뷰] Root Mean Square Layer Normalization
RMSNorm은 LayerNorm을 대체하여 평균 중심화를 제거하고 RMS로 합산 입력을 정규화하여 더 빠른 학습을 얻고 다양한 태스크에서 비슷한 성능을 유지합니다.
Layer normalization (LayerNorm) has been successfully applied to various deep neural networks to help stabilize training and boost model convergence because of its capability in handling re-centering and re-scaling of both inputs and weight matrix. However, the computational overhead introduced by LayerNorm makes these improvements expensive and significantly slows the underlying network, e.g. RNN in particular. In this paper, we hypothesize that re-centering invariance in LayerNorm is dispensable and propose root mean square layer normalization, or RMSNorm. RMSNorm regularizes the summed inputs to a neuron in one layer according to root mean square (RMS), giving the model re-scaling invariance property and implicit learning rate adaptation ability. RMSNorm is computationally simpler and thus more efficient than LayerNorm. We also present partial RMSNorm, or pRMSNorm where the RMS is estimated from p% of the summed inputs without breaking the above properties. Extensive experiments on several tasks using diverse network architectures show that RMSNorm achieves comparable performance against LayerNorm but reduces the running time by 7%~64% on different models. Source code is available at https://github.com/bzhangGo/rmsnorm.
연구 동기 및 목표
- LayerNorm에서 평균 중심화를 제거하는 것을 동기화하고 RMS 기반 재스케일링이 안정적인 학습에 충분한지 테스트한다.
- RMSNorm과 부분 RMSNorm(p RMSNorm)을 LayerNorm의 드롭인 대체로 제안한다.
- RMSNorm을 NLP, 비전, 크로스 모달 태스크 전반에 걸쳐 평가하여 정확도와 속도 향상을 확인한다.
제안 방법
- RMS(a)로 나누고 게인 g로 스케일링하여 뉴런 입력을 정규화한다(식 4).
- LayerNorm에 대한 드롭-인 대체 해석 및 불변성 속성의 분석(표 1).
- RMSNorm 하에서 그래디언트를 도출하여 안정성과 암묵적 학습률 적응을 보인다(식 8, 식 9).
- 앞의 p% 합산 입력에서 RMS를 추정하는 p RMSNorm(k = ceil(n*p))을 도입한다.
- 다양한 아키텍처와 프레임워크에서 LayerNorm, BatchNorm 및 다른 벤치마크와 비교한다.
실험 결과
연구 질문
- RQ1RMSNorm이 다양한 모델과 데이터셋에서 LayerNorm과 비슷한 태스크 성능을 달성하는가?
- RQ2RMSNorm이 LayerNorm에 비해 학습 속도를 향상시키면서 정확도를 보존할 수 있는가?
- RQ3입력/가중치 스케일링 하에서 RMSNorm의 불변성 및 그래디언트 특성은 어떠한가?
- RQ4부분 RMSNorm(p RMSNorm)은 정확도와 효율성 사이에서 어떤 트레이드오프를 갖는가?
- RQ5RMSNorm은 다양한 초기화 및 아키텍처(RNN, CNN, 트랜스포머)에 대해 견고한가?
주요 결과
| 모델 | Test14 | Test17 | 시간 |
|---|---|---|---|
| Baseline | 21.7 | 23.4 | 399 ± 3.40s (000%) |
| LayerNorm | 22.6 | 23.6 | 665 ± 32.5s (000%) |
| L2-Norm | 20.7 | 22.0 | 482 ± 19.7s (000%) |
| RMSNorm | 22.4 | 23.7 | 501 ± 11.8s (24.7%) |
| p RMSNorm | 22.6 | 23.1 | 493 ± 10.7s (25.9%) |
- RMSNorm은 RNNSearch에서 LayerNorm과 비교 가능한 BLEU 점수를 달성하며 한 설정에서 24.7%의 속도 향상, 또 다른 설정에서는 25.9%의 속도 향상을 보인다(Table 2).
- RMSNorm은 모델, 아키텍처 및 프레임워크 전반에 걸쳐 LayerNorm 대비 7%–64%의 속도 향상을 제공한다(초록 및 실험).
- Transformer 실험에서 RMSNorm은 LayerNorm과 비슷한 BLEU 점수를 제공하면서 7%–9%의 속도 향상을 보인다(Table 5).
- 부분 RMSNorm(6.25%)은 라이트하지만 프레임워크 의존적인 속도 이점이 있는 경우가 많아 RMSNorm과 유사한 성능을 자주 제공한다(Table 2, Table 3).
- RMSNorm은 입력의 명시적 평균 정규화 없이 활성화와 그래디언트를 안정화시키며 LayerNorm의 견고한 드롭-인 대체가 될 수 있다(불변성과 견고성에 관한 논의).
- 다양한 태스크(번역, 이미지-캡션 검색, CNN/CIFAR-10)에서 RMSNorm은 일관되게 수렴 속도를 개선하고 종종 LayerNorm보다 효율면에서 타격을 준다(Table 2–10).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.