QUICK REVIEW

[論文レビュー] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Noam Shazeer, Azalia Mirhoseini|arXiv (Cornell University)|Jan 23, 2017

Advanced Neural Network Applications被引用数 268

ひとこと要約

数千の専門家を持つスパースゲート付きMoE層を導入し、実用的な計算を維持しつつモデル容量を大幅にスケールさせる（最大137Bパラメータ）ことを実証。言語モデルと機械翻訳での適用を示し、容量の大幅増加を抑えた効率低下で実現

ABSTRACT

The capacity of a neural network to absorb information is limited by its number of parameters. Conditional computation, where parts of the network are active on a per-example basis, has been proposed in theory as a way of dramatically increasing model capacity without a proportional increase in computation. In practice, however, there are significant algorithmic and performance challenges. In this work, we address these challenges and finally realize the promise of conditional computation, achieving greater than 1000x improvements in model capacity with only minor losses in computational efficiency on modern GPU clusters. We introduce a Sparsely-Gated Mixture-of-Experts layer (MoE), consisting of up to thousands of feed-forward sub-networks. A trainable gating network determines a sparse combination of these experts to use for each example. We apply the MoE to the tasks of language modeling and machine translation, where model capacity is critical for absorbing the vast quantities of knowledge available in the training corpora. We present model architectures in which a MoE with up to 137 billion parameters is applied convolutionally between stacked LSTM layers. On large language modeling and machine translation benchmarks, these models achieve significantly better results than state-of-the-art at lower computational cost.

研究の動機と目的

条件付き計算を動機づけ、計算量の比例的な増加なしにモデル容量を劇的に増やす。
数千の experts を備えた Sparsely-Gated Mixture-of-Experts 層を提案・実装する。
言語モデルと機械翻訳のベンチマークで MoE 増強アーキテクチャを評価する。
大規模 MoE システムにおけるバッチ処理、帯域幅、ロードバランシングといった実用的な訓練課題に対処する。

提案手法

複数の専門家ネットワークと、各入力に対して疎な専門家サブセットを選択する訓練可能なゲーティングネットワークを備えた MoE 層を定義する。
ソフトマックスまたはノイジートップ-kゲーティングを用いて疎なゲーティング重みを生成し、入力ごとの専門家選択を可能にする。
ゲーティングと専門家ネットワークを後向き伝搬で共同訓練し、ロードバランシングを促進し専門家の支配を緩和する仕組みを導入する。
MoE 計算の実効バッチサイズを増やすためにデータとモデル並列性を混合して、パフォーマンスの課題に対処する。
LSTM 層間で MoE を適用する畳み込み的適用を活用して、位置ごとのゲーティング決定を可能にする。
LSTM 層間に MoE 層を埋め込むアーキテクチャを含む、非常に大規模な MoE 容量（数千の専門家まで）を試す。

実験結果

リサーチクエスチョン

RQ1サスパースゲート付き MoE 層による条件付き計算は、計算効率を維持しつつニューラルネットワークの容量をどのように拡張できるか？
RQ2どのゲーティング戦略（ソフトマックス vs. ノイジートップ-k）とアーキテクチャ配置が、言語モデルと翻訳タスクで最良の性能をもたらすか？
RQ3MoE ベースのモデルは、現実的な計算予算で大規模な言語モデリングと機械翻訳ベンチマークで最先端の結果を達成できるか？
RQ4訓練とデプロイの現実的な課題（バッチ処理、帯域幅、ロードバランシング）は何で、それをどう緩和できるか？

主な発見

数千の専門家を備えた MoE モデルは、同等の最先端モデルよりも大きな計算コストを抑えつつ大規模言語モデリングベンチマークで顕著に良い結果を達成した。
1B語の言語モデリング設定で、大規模 MoE 容量により perplexity が最大で 24% 改善された。
100B語の Google News コーパスでは、137B パラメータまでの MoE モデルは perplexity の改善を継続し、データサイズと性能向上に相関が見られた。
機械翻訳では、MoE 増強 GNMT 風モデルが複数の言語ペアで強力なベースラインを上回る BLEU の改善を達成し、いくつかの設定で訓練時間が短縮された。
多言語翻訳実験では、ほとんどの言語ペアで perplexity と BLEU の向上を示し、マルチリンガル基準より顕著な改善を示した。
論文は、ハードウェアを拡張し MoE ベースの条件付き計算を用いることで、兆パラメータ級モデルの訓練が実現可能であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。