[論文レビュー] Taming Sparsely Activated Transformer with Stochastic Experts
THOR の乱数エキスパート活性化と一貫性正則化器が、低リソース・豊富リソース・多言語 MT タスク全般で標準の Transformer および Switch MoE モデルを上回り、パラメータ効率の改善を示す。
Sparsely activated models (SAMs), such as Mixture-of-Experts (MoE), can easily scale to have outrageously large amounts of parameters without significant increase in computational cost. However, SAMs are reported to be parameter inefficient such that larger models do not always lead to better performance. While most on-going research focuses on improving SAMs models by exploring methods of routing inputs to experts, our analysis reveals that such research might not lead to the solution we expect, i.e., the commonly-used routing methods based on gating mechanisms do not work better than randomly routing inputs to experts. In this paper, we propose a new expert-based model, THOR (Transformer witH StOchastic ExpeRts). Unlike classic expert-based models, such as the Switch Transformer, experts in THOR are randomly activated for each input during training and inference. THOR models are trained using a consistency regularized loss, where experts learn not only from training data but also from other experts as teachers, such that all the experts make consistent predictions. We validate the effectiveness of THOR on machine translation tasks. Results show that THOR models are more parameter efficient in that they significantly outperform the Transformer and MoE models across various settings. For example, in multilingual translation, THOR outperforms the Switch Transformer by 2 BLEU scores, and obtains the same BLEU score as that of a state-of-the-art MoE model that is 18 times larger. Our code is publicly available at: https://github.com/microsoft/Stochastic-Mixture-of-Experts.
研究の動機と目的
- 大規模なパラメータ数にもかかわらず、sparsely activated models (SAMs) がパラメータ効率に欠ける可能性がある理由を動機づける。
- MoEスタイルのアーキテクチャにおいて、ゲーティングベースのルーティング(top-k エキスパート)がランダムルーティングを上回るかを調査する。
- エキスパートをランダムに活性化し、エキスパート間で予測を整合させる一貫性正則化を用いる SAM である THOR を提案する。
- パラメータ効率と一般化を評価するため、低リソース・豊富リソース・多言語機械翻訳で THOR を評価する。
提案手法
- ゲーティングベースの MoE モデルを分析し、負荷の不均衡とランダムルーティングの挙動を特定する。
- 訓練イテレーションごとおよび推論時に各レイヤーで一対のエキスパートをランダムに活性化する THOR を導入する。
- 二つのランダムエキスパート選択からのクロスエントロピー損失を最小化し、KLベースの一貫性項を加えた一貫性正則化を採用する。
- エキスパート同士が相互に学習し一貫した予測を生み出すデュアル・ティーチャー風の設定で THOR を訓練する。
- 標準ベンチマークを用いて、低リソース・豊富リソース・多言語 MT 設定で THOR を評価する。
実験結果
リサーチクエスチョン
- RQ1同程度のサイズの高密度活性化モデルと比較して、希薄活性化モデルは本質的に性能が劣るのか?
- RQ2MoE様式のモデルで利得を得るためにゲーティングベースのルーティングが必要なのか、それともランダムエキスパート活性化で効果を得られるのか。
- RQ3エキスパートをランダムに活性化する場合、一貫性正則化が堅牢な訓練と推論を可能にするか。
- RQ4MT タスクと設定全般における THOR の Transformer および Switch Transformer に対する性能上の優位性はどの程度か?
主な発見
- THOR は三つの設定すべてで、バニラの Transformer および Switch Transformer を一貫して上回る。
- 低リソース MT では、THOR が Switch に対して平均BLEUを1.0ポイント超改善し、SMARTおよびR3Fのベースラインを上回る。
- 豊富リソース MT で、データ拡張や事前学習なしで En-De および En-Fr の新しい state-of-the-art を達成。
- 多言語 MT では、300M パラメータの THOR が 5.5B パラメータの Switch MoE の BLEU に匹敵し、18 倍のパラメータ効率を示す。
- THOR は Switch Transformer と比較して予測の一貫性が高く分散が小さく、モデルサイズが大きくなるにつれて過学習が少なくなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。