Skip to main content
QUICK REVIEW

[論文レビュー] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Nan Du, Yanping Huang|arXiv (Cornell University)|Dec 13, 2021
Topic Modeling被引用数 168
ひとこと要約

GLaM は sparsely activated mixture-of-experts を用いて言語モデルを最大1.2兆パラメータへスケールさせ、29タスクで GPT-3 よりゼロショット/ワンショット/少数ショットの性能が向上しつつ、推論時のトレーニングエネルギーは約1/3、FLOPsは半分程度である。

ABSTRACT

Scaling language models with more data, compute and parameters has driven significant progress in natural language processing. For example, thanks to scaling, GPT-3 was able to achieve strong results on in-context learning tasks. However, training these large dense models requires significant amounts of computing resources. In this paper, we propose and develop a family of language models named GLaM (Generalist Language Model), which uses a sparsely activated mixture-of-experts architecture to scale the model capacity while also incurring substantially less training cost compared to dense variants. The largest GLaM has 1.2 trillion parameters, which is approximately 7x larger than GPT-3. It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference, while still achieving better overall zero-shot and one-shot performance across 29 NLP tasks.

研究の動機と目的

  • 密度の高いアーキテクチャと比較して、トレーニングコストとエネルギー使用を抑えたスケーラブルな言語モデリングを動機づける。
  • モデル容量を増やしつつ計算量を比例させずに MoE レイヤを探索する。
  • ゼロショット、ワンショット、少数ショットの性能を広範な NLU/NLG ベンチマークで評価する。
  • MoE と密なモデルのデータ品質、スケーリング挙動、効率のトレードオフを評価する。

提案手法

  • 交互の Transformer レイヤのフィードフォワード網を、複数のエキスパートを含む Mixture-of-Experts (MoE) レイヤと置換する。
  • トークンごとに2つの最良エキスパートを選択するゲーティングネットワークを用い、活性化するエキスパートを2つに限定することで約 O(E^2) の組合せ容量を実現する。
  • MoE でないレイヤに対して各レイヤごとの相対位置バイアスと GaLU/GeLU に類似した活性化を採用して、効率と性能を向上させる。
  • 品質分類器を用いてウェブコーパスを整え、Wikipedia、対話、フォーラム、書籍、ニュースと指定された混合重みで混合した1.6兆トークンの高品質データセットで訓練する。
  • Adafactor で最適化し、MoE の補助負荷分散損失を適用し、巨大モデルには2D テンソルシャーディングを採用する。

実験結果

リサーチクエスチョン

  • RQ1スパースに活性化された MoE 言語モデルは、_dense_モデルと比較してトレーニングコストとエネルギーを削減しつつ、兆パラメータ規模へスケールできるか。
  • RQ2MoE ベースのデコーダは、同等の実効 FLOPs で、密な同等物に対してゼロショット/ワンショット/少数ショットの性能で優れているか。
  • RQ3データ品質は大規模 MoE 言語モデルの性能にどう影響するか。
  • RQ4MoE レイヤのエキスパート数を増やすと、スケーラビリティと効率性のトレードオフはどうなるか。
  • RQ5MoE モデルは知識指向タスクやオープンドメインQAで、密なモデルと比べてどうであるか。

主な発見

  • GLaM は 1.2T パラメータと MoE レイヤあたり 64 エキスパートで、トークンあたり約96.6B パラメータを活性化するが、0/1/少数ショット設定の 29 ベンチマークで GPT-3 と比較して同等またはそれ以上の性能を発揮する。
  • GLaM は GPT-3 のトレーニングエネルギーを約3分の1程度、推論時の FLOPs を約半分程度しか必要としない。
  • GLaM (64B/64E) は 7 ベンチマークカテゴリ中平均で GPT-3 を上回り、7カテゴリ中 6カテゴリで優位性を示す。
  • データ品質は性能に正の影響を与え、フィルタリングされた高品質データで訓練した方が、非フィルタリングでより大きなデータセットで訓練した場合より良い下流結果を生む。
  • MoE モデルはデータ効率性を示し、同等の実効 FLOPs でより少ないデータでより強い性能を達成し、より大きなサイズで密な対数と比較してスケーリングの恩恵を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。