Skip to main content
QUICK REVIEW

[論文レビュー] Root Mean Square Layer Normalization

Biao Zhang, Rico Sennrich|arXiv (Cornell University)|Oct 16, 2019
Neural Networks and Applications参考文献 30被引用数 101
ひとこと要約

RMSNorm は LayerNorm を置換し、総入力を RMS で正規化して平均を中心化する処理を排除することで、タスク間で同等の性能を維持しつつ訓練をより速くする。

ABSTRACT

Layer normalization (LayerNorm) has been successfully applied to various deep neural networks to help stabilize training and boost model convergence because of its capability in handling re-centering and re-scaling of both inputs and weight matrix. However, the computational overhead introduced by LayerNorm makes these improvements expensive and significantly slows the underlying network, e.g. RNN in particular. In this paper, we hypothesize that re-centering invariance in LayerNorm is dispensable and propose root mean square layer normalization, or RMSNorm. RMSNorm regularizes the summed inputs to a neuron in one layer according to root mean square (RMS), giving the model re-scaling invariance property and implicit learning rate adaptation ability. RMSNorm is computationally simpler and thus more efficient than LayerNorm. We also present partial RMSNorm, or pRMSNorm where the RMS is estimated from p% of the summed inputs without breaking the above properties. Extensive experiments on several tasks using diverse network architectures show that RMSNorm achieves comparable performance against LayerNorm but reduces the running time by 7%~64% on different models. Source code is available at https://github.com/bzhangGo/rmsnorm.

研究の動機と目的

  • LayerNorm における平均中心化の除去を動機付け、RMS ベースの再スケーリングが安定した訓練を十分に満たすかを検証する。
  • RMSNorm および部分 RMSNorm (p RMSNorm) を LayerNorm のドロップイン置換として提案する。
  • NLP、ビジョン、クロスモーダルタスク全般で RMSNorm を評価し、精度と速度向上を検証する。

提案手法

  • ニューロン入力を RMS(a) で割り、ゲイン g でスケーリングして正規化する(式 4)。
  • LayerNorm に対するドロップイン置換の解釈と、不変性特性の分析(表 1)。
  • RMSNorm 下の勾配を導出し、安定性と暗黙的な学習率適応を示す(式 8、式 9)。
  • 先頭 p% の総和入力から RMS を推定する p RMSNorm を導入する(k = ceil(n*p))。
  • 複数のアーキテクチャとフレームワークにわたり、LayerNorm、BatchNorm、その他のベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1多様なモデルとデータセットにおいて、RMSNorm は LayerNorm と同程度のタスク性能を達成するか。
  • RQ2LayerNorm に対する訓練速度の向上を、精度を保ちつつ RMSNorm は提供できるか。
  • RQ3入力/重量のスケーリングに対する RMSNorm の不変性と勾配特性は何か。
  • RQ4部分 RMSNorm (p RMSNorm) は精度と効率性をどのようにトレードオフするか。
  • RQ5RMSNorm は異なる初期化と構造(RNN、CNN、Transformers)に対して堅牢か。

主な発見

モデルTest14Test17時間
Baseline21.723.4399 ± 3.40s (000%)
LayerNorm22.623.6665 ± 32.5s (000%)
L2-Norm20.722.0482 ± 19.7s (000%)
RMSNorm22.423.7501 ± 11.8s (24.7%)
p RMSNorm22.623.1493 ± 10.7s (25.9%)
  • RMSNorm は RNNSearch で LayerNorm と同等の BLEU スコアを達成し、1つの設定で 24.7%、別の設定で 25.9% の速度アップを達成(表2)。
  • RMSNorm は 複数のモデル・アーキテクチャ・フレームワークで LayerNorm と比べて 7%–64% の速度向上を提供(要約と実験)。
  • Transformer 実験では、BLEU スコアが LayerNorm と同等で、7%–9% の速度アップを得る(表5)。
  • 部分 RMSNorm (6.25%) はしばしば RMSNorm と同等の性能を示し、顕著だがフレームワーク依存の速度利得を得ることが多い(表2、表3)。
  • RMSNorm は入力の平均正規化を明示的に行わなくても活性化と勾配の安定化をもたらし、LayerNorm の頑健なドロップイン置換になり得る(不変性と頑健性の議論)。
  • タスク全体(機械翻訳、画像キャプション検索、CNN/CIFAR-10)で、RMSNorm は Baseline に対して収束速度を一貫して向上させ、効率性ではしばしば LayerNorm に匹敵するかそれを上回る(表2–表10)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。