[論文レビュー] Modular Networks: Learning to Decompose Neural Computation
本論文は、再利用可能なモジュールに神経計算を分解することを学習するモジュラー網を紹介し、一般化EMトレーニングフレームワークを用いて正則化なしに決定論的なモジュール選択を実現し、言語モデリングと画像分類での改善を示します。
Scaling model capacity has been vital in the success of deep learning. For a typical network, necessary compute resources and training time grow dramatically with model size. Conditional computation is a promising way to increase the number of parameters with a relatively small increase in resources. We propose a training algorithm that flexibly chooses neural modules based on the data to be processed. Both the decomposition and modules are learned end-to-end. In contrast to existing approaches, training does not rely on regularization to enforce diversity in module use. We apply modular networks both to image recognition and language modeling tasks, where we achieve superior performance compared to several baselines. Introspection reveals that modules specialize in interpretable contexts.
研究の動機と目的
- 再利用可能なモジュールに計算を分解することで、スケーラブルなニューラルネットワークを動機づける。
- モジュールとその分解の両方を学習する確率的でエンドツーエンドのトレーニングフレームワークを開発する。
- 計算量を削減しトレーニングの安定性を向上させるために決定論的なモジュール選択を実現する。
- 言語モデリングと画像分類で解釈可能なモジュール特化を示す。
提案手法
- ネットワークをM個のモジュールの集合と、各層でK個のモジュールを選択するコントローラとして表現する。
- モジュール選択aを潜在変数としてモデル化し、尤度の変分下限を最大化する。
- 部分Eステップ(ビタリビ風)を備えた一般化EMを用いてq(a)を決定論的に保つ(q(a)=delta(a,a*))。
- θ(モジュールパラメータ)とφ(コントローラ)の勾配をE[log p(y,a|x,θ,φ)]を用いて計算する。
- Eステップのトレーニング戦略として、S個の候補モジュール組み合わせをサンプルして最良を選ぶ、または改善がない場合は前のa*を保持する。
- 層をまたいで決定論的な共有モジュールの使用をサポートし、動的なパラメータ共有と再利用を可能にする。
実験結果
リサーチクエスチョン
- RQ1明示的な正則化なしに、ニューラルネットワークは計算を再利用可能なモジュールに分解することを学べるか?
- RQ2モジュール選択とモジュールパラメータのエンドツーエンド学習は、言語モデリングと画像分類で競争力のある性能を生むか?
- RQ3モジュラーネットワークは、文脈やデータサブセットへの解釈可能なモジュール特化を示すか?
- RQ4提案された学習は、安定性と効率の点でREINFORCEとノイジーTop-kゲーティングと比較してどうか?
主な発見
| タイプ | #モジュール(M) | #並列モジュール(K) | テスト perplexity |
|---|---|---|---|
| EM Modular Networks | 15 | 1 | 229.651 |
| EM Modular Networks | 5 | 1 | 236.809 |
| EM Modular Networks | 15 | 3 | 246.493 |
| EM Modular Networks | 5 | 3 | 236.314 |
| REINFORCE | 15 | 1 | 240.760 |
| REINFORCE | 5 | 1 | 240.450 |
| REINFORCE | 15 | 3 | 274.060 |
| REINFORCE | 5 | 3 | 267.585 |
| Noisy Top-k ( k=4 ) | 15 | 1 | 422.636 |
| Noisy Top-k ( k=4 ) | 5 | 1 | 338.275 |
| Baseline | 1 | 1 | 247.408 |
| Baseline | 3 | 3 | 241.294 |
- モジュラーネットワークは、Penn TreebankにおいてベースラインやRLベースの手法と比較して競争力のパープレキシティを達成し、トレーニングノイズが低い。
- 言語モデリングのモジュールは文法的/意味的文脈に特化しており、解釈可能な使用パターンを示している。
- CIFAR-10では、モジュラーでないベースラインに対して訓練精度を改善するが、一般化の恩恵はコントローラ設計により変動する。
- 訓練法は訓練の終了時に全モジュールの使用を達成し、バッチ選択エントロピーの増加が多様な使用を示している。
- REINFORCEとノイジーTop-kと比較して、EMベースの方法は低いパープレキシティとより決定論的なモジュール選択を示す。
- この手法は多様性のための明示的な正則化を避け、部分EM更新によりモジュール崩壊を防ぐ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。