Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Neural Architecture Search via Parameter Sharing

Hieu Pham, Melody Y. Guan|arXiv (Cornell University)|Feb 9, 2018
Advanced Neural Network Applications参考文献 26被引用数 630
ひとこと要約

tldr: ENAS は重みを子モデル間で共有することでニューラルアーキテクチャ探索 (NAS) を高速化し、1000x 超の GPU-時間削減で競争力のある結果を達成。Penn Treebank では 55.8 perplexity、CIFAR-10 では 2.89% のテスト誤差を達成。

ABSTRACT

We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational graph. The controller is trained with policy gradient to select a subgraph that maximizes the expected reward on the validation set. Meanwhile the model corresponding to the selected subgraph is trained to minimize a canonical cross entropy loss. Thanks to parameter sharing between child models, ENAS is fast: it delivers strong empirical performances using much fewer GPU-hours than all existing automatic model design approaches, and notably, 1000x less expensive than standard Neural Architecture Search. On the Penn Treebank dataset, ENAS discovers a novel architecture that achieves a test perplexity of 55.8, establishing a new state-of-the-art among all methods without post-training processing. On the CIFAR-10 dataset, ENAS designs novel architectures that achieve a test error of 2.89%, which is on par with NASNet (Zoph et al., 2018), whose test error is 2.65%.

研究の動機と目的

  • ニューロンアーキテクチャ探索 (NAS) の計算コストを削減しつつ高い性能を維持する動機付け。
  • すべての候補アーキテクチャが重みを共有する枠組みを提案し、より大きな DAG 内でサブグラフベースの探索を可能にする。
  • 重みが共有されている間に強化学習を通じてサブアーキテクチャの選択を学習するコントローラを開発する。
  • language (Penn Treebank) および image (CIFAR-10) ドメインで ENAS の有効性を実証する。

提案手法

  • NAS 探索空間を単一の大きな計算 DAG のサブグラフとして表現する。
  • 検証報酬を最大化するサブグラフをサンプルするコントローラ RNN (policy gradient) を訓練する。
  • すべての子アーキテクチャ間でパラメータを共有し、ゼロからの再訓練を回避する。
  • 交互訓練:子モデルの共有重み ω、アーキテクチャサンプリングのコントローラパラメータ θ を最適化する。
  • 訓練済みコントローラからサンプルして、最良候補をゼロから再訓練して最終アーキテクチャを導出する。
  • 再帰セルと畳み込みネットワークの別個の探索空間を適用し、macro (全体 nets) および micro (cell) 探索を含む。

実験結果

リサーチクエスチョン

  • RQ1パラメータ共有は、性能を損なうことなく NAS に substantial な効率向上をもたらすか?
  • RQ2言語および視覚タスク全体で、精度と探索コストの観点で ENAS は従来の NAS やランダム探索とどう比較されるか?
  • RQ3再帰セル、畳み込みネットワーク、畳み込みセルという異なる探索空間は ENAS の性能にどのような影響を与えるか?
  • RQ4ウェイト共有の下で良いアーキテクチャを得る現実的な訓練レジームと報酬設計とは何か?

主な発見

Table/ResultDetailsParams (million)Test Perplexity or Error
ENAS (recurrent cells)Test on Penn Treebank2455.8
NAS (Zoph & Le 2017)Test on Penn Treebank (baseline for comparison)5462.4
ENAS macro (full networks)CIFAR-10 test error with macro search21.34.23
ENAS macro (more channels)CIFAR-10 test error with macro search and more channels38.03.87
ENAS micro (cells)CIFAR-10 test error with micro search4.63.54
ENAS micro (cells) + CutOutCIFAR-10 test error with micro search and CutOut4.62.89
  • ENAS は競争力のあるアーキテクチャを発見しつつ、GPU- hours をはるかに減らしており(単一の GTX 1080Ti で 16 時間未満)、NAS に対して 1000x 超の速度向上を達成。
  • Penn Treebank ではテスト perplexity は 55.8、NAS (62.4) を上回り、非 post-processed モデルの新しい最先端に達する。
  • CIFAR-10 では macro 空間で 4.23%、micro 空間で 3.54%、CutOut なし、そして CutOut ありで 2.89%、NASNet-A に近い性能。
  • タスクを跨いで、ENAS はランダム探索と非訓練コントローラのベースラインを上回り、学習済みコントローラの重要性を強調する。
  • 最良の ENAS モデルは、スキップ接続と多様な演算選択を許可することでアーキテクチャ探索の利点を示し、発見されたセルに局所的最小値の挙動が観察される。
  • ENAS の weight-sharing アプローチは、各候補をゼロから訓練する禁止的コストを回避し、スケーラブルなアーキテクチャ発見を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。