Skip to main content
QUICK REVIEW

[論文レビュー] Learning Factored Representations in a Deep Mixture of Experts

David Eigen, Marc’Aurelio Ranzato|arXiv (Cornell University)|Dec 16, 2013
Speech and Audio Processing参考文献 8被引用数 137
ひとこと要約

本稿では、深層生成モデルであるDeep Mixture of Experts(DMoE)を提案する。このモデルは、各層でスタックされたゲーティングネットワークを用いて、入力を動的に異なるエキスパートの組み合わせにルーティングする深層ニューラルネットワークアーキテクチャであり、計算コストを抑えながらもエフェクティブなエキスパート数を指数関数的に増加させることを可能にする。モデルはMNISTにおける位置要因やクラス要因、モノフォン音声データにおける明確な発音パターンといった、分離可能な表現を学習する。条件付きルーティングにより、すべてのエキスパートの組み合わせを効果的かつバランスよく活用していることが示された。

ABSTRACT

Mixtures of Experts combine the outputs of several "expert" networks, each of which specializes in a different part of the input space. This is achieved by training a "gating" network that maps each input to a distribution over the experts. Such models show promise for building larger networks that are still cheap to compute at test time, and more parallelizable at training time. In this this work, we extend the Mixture of Experts to a stacked model, the Deep Mixture of Experts, with multiple sets of gating and experts. This exponentially increases the number of effective experts by associating each input with a combination of experts at each layer, yet maintains a modest model size. On a randomly translated version of the MNIST dataset, we find that the Deep Mixture of Experts automatically learns to develop location-dependent ("where") experts at the first layer, and class-specific ("what") experts at the second layer. In addition, we see that the different combinations are in use when the model is applied to a dataset of speech monophones. These demonstrate effective use of all expert combinations.

研究の動機と目的

  • 大規模なモデルサイズであっても推論コストを低く保てるスケーラブルな深層学習アーキテクチャの開発を目的とする。入力をエキスパートの部分集合に動的にルーティングすることで実現する。
  • 異なる層がデータ要因(例:空間的配置とクラス識別子)に特化する因子分解表現学習を可能にする。
  • ゲーティングクラッシュを防ぐために、ランニング割り当て制約を用いてトレーニング中にエキスパートの使用をバランスさせる。
  • 視覚および音声タスクにおけるモデルの評価を行い、現実世界のデータにおいてすべてのエキスパートの組み合わせが効果的に使用されていることを示す。

提案手法

  • DMoEは、複数層のゲーティングネットワークとエキスパートネットワークを用いる。各層のゲーティングネットワークは、直前の層の出力に基づいて、重み付きのエキスパートの組み合わせを選択する。
  • 各層の出力は、エキスパート出力の重み付き和として計算される:$ z^{l} = \sum_{i} g^{l}_{i}(z^{l-1}) f^{l}_{i}(z^{l-1}) $。ゲーティング重みは合計が1になるように正規化される。
  • トレーニング中にランニング総計制約が適用される。エキスパートの累積割り当てが平均値をマージン$ m $以上上回る場合、そのエキスパートのゲーティング重みは0に設定され、再正規化が行われる。これにより、過剰使用を防ぐ。
  • 最終出力は、最後の層の混合出力にソフトマックス層を適用することで得られる。これにより分類が可能になる。
  • エキスパートは単層ReLUネットワークとして実装され、ゲーティングネットワークは隠れユニット数が少ない2層のReLUネットワークとして実装される。
  • モデルは、過剰なエキスパートの支配を避けるために、バランス制約を用いた確率的勾配降下法でトレーニングされる。

実験結果

リサーチクエスチョン

  • RQ1深層エキスパート混合モデルは、画像データにおける空間的配置とクラス識別子を分離可能な表現として学習できるか?
  • RQ2DMoEアーキテクチャは、一部のエキスパートの組み合わせに依存するのではなく、すべての可能なエキスパートの組み合わせを効果的に活用できるか?
  • RQ3ゲーティングクラッシュのリスクがある中で、トレーニング中にエキスパートの使用をバランスさせることができるか?
  • RQ4標準的なMoEおよびDNNベースラインと比較して、DMoEは現実世界の音声データにおいてどのように性能を発揮するか?
  • RQ5条件付き計算により、計算コストを抑えつつも、競争力のある性能を達成できるか?

主な発見

  • ジターモードMNISTデータセットでは、DMoEが最初の層で平行移動(位置)に基づいて入力をルーティングし、2番目の層でクラスに基づいてルーティングすることを学習しており、因子分解表現学習の有効性が示された。
  • 4×100-4×20アーキテクチャを用いたジターモードMNISTデータセットでは、テスト誤差が0.85に達し、単一エキスパートベースラインおよび連結エキスパートベースラインを上回った。
  • モノフォン音声データでは、DMoEがテストセットの発音誤り率0.55を達成し、ベースラインと同等の性能を示したが、エキスパートの組み合わせごとの使用がよりバランスが取れていた。
  • ゲーティング重みの可視化から、すべてのエキスパートの組み合わせが活発に使用されており、特定の組み合わせが支配的になることはなかった。
  • 共同割り当て解析から、2番目の層のエキスパート選択が最初の層の選択に弱く依存していることが判明し、ルーティングが多様かつ独立していることが示された。
  • ランニング割り当て制約のおかげで、トレーニングプロセスが安定し、ゲーティングクラッシュを防ぎ、エキスパートの使用がバランスが取れた状態を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。