QUICK REVIEW

[論文レビュー] Efficient Neural Architecture Search via Parameter Sharing

Hieu Pham, Melody Y. Guan|arXiv (Cornell University)|Feb 9, 2018

Advanced Neural Network Applications参考文献 26被引用数 630

ひとこと要約

tldr: ENAS は重みを子モデル間で共有することでニューラルアーキテクチャ探索 (NAS) を高速化し、1000x 超の GPU-時間削減で競争力のある結果を達成。Penn Treebank では 55.8 perplexity、CIFAR-10 では 2.89% のテスト誤差を達成。

ABSTRACT

We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. In ENAS, a controller learns to discover neural network architectures by searching for an optimal subgraph within a large computational graph. The controller is trained with policy gradient to select a subgraph that maximizes the expected reward on the validation set. Meanwhile the model corresponding to the selected subgraph is trained to minimize a canonical cross entropy loss. Thanks to parameter sharing between child models, ENAS is fast: it delivers strong empirical performances using much fewer GPU-hours than all existing automatic model design approaches, and notably, 1000x less expensive than standard Neural Architecture Search. On the Penn Treebank dataset, ENAS discovers a novel architecture that achieves a test perplexity of 55.8, establishing a new state-of-the-art among all methods without post-training processing. On the CIFAR-10 dataset, ENAS designs novel architectures that achieve a test error of 2.89%, which is on par with NASNet (Zoph et al., 2018), whose test error is 2.65%.

研究の動機と目的

ニューロンアーキテクチャ探索 (NAS) の計算コストを削減しつつ高い性能を維持する動機付け。
すべての候補アーキテクチャが重みを共有する枠組みを提案し、より大きな DAG 内でサブグラフベースの探索を可能にする。
重みが共有されている間に強化学習を通じてサブアーキテクチャの選択を学習するコントローラを開発する。
language (Penn Treebank) および image (CIFAR-10) ドメインで ENAS の有効性を実証する。

提案手法

NAS 探索空間を単一の大きな計算 DAG のサブグラフとして表現する。
検証報酬を最大化するサブグラフをサンプルするコントローラ RNN (policy gradient) を訓練する。
すべての子アーキテクチャ間でパラメータを共有し、ゼロからの再訓練を回避する。
交互訓練：子モデルの共有重み ω、アーキテクチャサンプリングのコントローラパラメータ θ を最適化する。
訓練済みコントローラからサンプルして、最良候補をゼロから再訓練して最終アーキテクチャを導出する。
再帰セルと畳み込みネットワークの別個の探索空間を適用し、macro (全体 nets) および micro (cell) 探索を含む。

実験結果

リサーチクエスチョン

RQ1パラメータ共有は、性能を損なうことなく NAS に substantial な効率向上をもたらすか？
RQ2言語および視覚タスク全体で、精度と探索コストの観点で ENAS は従来の NAS やランダム探索とどう比較されるか？
RQ3再帰セル、畳み込みネットワーク、畳み込みセルという異なる探索空間は ENAS の性能にどのような影響を与えるか？
RQ4ウェイト共有の下で良いアーキテクチャを得る現実的な訓練レジームと報酬設計とは何か？

主な発見

Table/Result	Details	Params (million)	Test Perplexity or Error
ENAS (recurrent cells)	Test on Penn Treebank	24	55.8
NAS (Zoph & Le 2017)	Test on Penn Treebank (baseline for comparison)	54	62.4
ENAS macro (full networks)	CIFAR-10 test error with macro search	21.3	4.23
ENAS macro (more channels)	CIFAR-10 test error with macro search and more channels	38.0	3.87
ENAS micro (cells)	CIFAR-10 test error with micro search	4.6	3.54
ENAS micro (cells) + CutOut	CIFAR-10 test error with micro search and CutOut	4.6	2.89

ENAS は競争力のあるアーキテクチャを発見しつつ、GPU- hours をはるかに減らしており（単一の GTX 1080Ti で 16 時間未満）、NAS に対して 1000x 超の速度向上を達成。
Penn Treebank ではテスト perplexity は 55.8、NAS (62.4) を上回り、非 post-processed モデルの新しい最先端に達する。
CIFAR-10 では macro 空間で 4.23%、micro 空間で 3.54%、CutOut なし、そして CutOut ありで 2.89%、NASNet-A に近い性能。
タスクを跨いで、ENAS はランダム探索と非訓練コントローラのベースラインを上回り、学習済みコントローラの重要性を強調する。
最良の ENAS モデルは、スキップ接続と多様な演算選択を許可することでアーキテクチャ探索の利点を示し、発見されたセルに局所的最小値の挙動が観察される。
ENAS の weight-sharing アプローチは、各候補をゼロから訓練する禁止的コストを回避し、スケーラブルなアーキテクチャ発見を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。