QUICK REVIEW

[論文レビュー] SNAS: Stochastic Neural Architecture Search

Sirui Xie, Hehui Zheng|arXiv (Cornell University)|Dec 24, 2018

Advanced Neural Network Applications参考文献 36被引用数 285

ひとこと要約

SNAS は、離散選択を concrete distribution で緩和することにより、操作パラメータとアーキテクチャ分布パラメータを同時に学習する微分可能なエンドツーエンドのニューラルアーキテクチャ探索フレームワークを導入し、CIFAR-10 で競争力のある結果を達成し、ImageNet への移行も計算コストを削減して実現します。

ABSTRACT

We propose Stochastic Neural Architecture Search (SNAS), an economical end-to-end solution to Neural Architecture Search (NAS) that trains neural operation parameters and architecture distribution parameters in same round of back-propagation, while maintaining the completeness and differentiability of the NAS pipeline. In this work, NAS is reformulated as an optimization problem on parameters of a joint distribution for the search space in a cell. To leverage the gradient information in generic differentiable loss for architecture search, a novel search gradient is proposed. We prove that this search gradient optimizes the same objective as reinforcement-learning-based NAS, but assigns credits to structural decisions more efficiently. This credit assignment is further augmented with locally decomposable reward to enforce a resource-efficient constraint. In experiments on CIFAR-10, SNAS takes less epochs to find a cell architecture with state-of-the-art accuracy than non-differentiable evolution-based and reinforcement-learning-based NAS, which is also transferable to ImageNet. It is also shown that child networks of SNAS can maintain the validation accuracy in searching, with which attention-based NAS requires parameter retraining to compete, exhibiting potentials to stride towards efficient NAS on big datasets. We have released our implementation at https://github.com/SNAS-Series/SNAS-Series.

研究の動機と目的

強化学習（RL）ベースのNASにおける遅延報酬クレジット割当を回避する、効率的なNASフレームワークを提案する。
NASをセルレベルのアーキテクチャの結合分布を学習する問題として再定式化する。
操作パラメータとアーキテクチャパラメータの双方に対して、微分可能な勾配ベースの更新を可能にする。
ハードウェアを意識した小型アーキテクチャを促進するグローバルリソース制約を組み込む。

提案手法

セルのNAS探索空間を、エッジごとに1ホットのアーキテクチャ決定を持つ有向非巡回グラフ（DAG）として表現し、結合分布 p(Z) を完全に因子分解する。
具体分布を用いて離散的なアーキテクチャ選択を緩和し、パラメータ化可能な勾配（Gumbel ベースのパラメータ化）を可能にする。
L_theta(Z) の微分可能な報酬を持つ、ポリシー勾配風のクレジット割り当てに対応する探索勾配を導出する。
期待値でRLベースNASの目的と等価であることを示し、より効率的なクレジット割り当てと遅延報酬の排除を実現する。
目的関数をエッジごとに分解されるグローバルリソース制約で強化し、より小型で高速なアーキテクチャを奨励する。
任意でリソースコスト項 C(Z) を含め、p_alpha(Z) の下でその期待値を計算する方法を示す（可実現な近似を用いて）。

実験結果

リサーチクエスチョン

RQ1微分可能で確率的なNASフレームワークは、遅延報酬を避けつつ訓練時間を短縮し、RL/進化ベースのNASと同等以上を達成できるか。
RQ2アーキテクチャのサンプリングを勾配ベースの最適化に合わせることは、DARTSやENASと比較してクレジット割り当てと最終性能を改善するか。
RQ3グローバルリソース制約は、精度を犠牲にせずモデルサイズとFLOPsをどの程度低減できるか、そしてこれがスケーラブルな最適化のために分解可能か。
RQ4学習したセルは、より大規模なデータセット（例：ImageNet）へ移行可能で、競争力のある精度と効率性を維持するか。

主な発見

SNASは、軽微な制約の下で2.85%のテストエラー率と2.8MパラメータでCIFAR-10に競争力のある結果を達成し、1st-order DARTSおよびENASを上回り、2nd-order DARTSと同等の性能を、より少ないパラメータで達成。
SNASの探索過程は探索中の検証精度を高く維持し、DARTSよりも安定し偏りの少ないアーキテクチャを生み出す。実験では88%の検索検証精度を観測。
SNAS生成セルはImageNet（モバイル設定）へ移行し、トップ1誤差27.3%を示し、RLベースNASと比較して競争力のある性能を示しつつ、計算量は大幅に削減（計算量は3桁分の削減）。
CIFAR-10実験全体で、軽度/中等度/積極的なリソース制約を用いたSNASは、多様で徐々に疎なセル構造を発見し、精度・パラメータ数・探索コストの間で制御可能なトレードオフを示す。
SNASは派生した子ネットワークの検証精度を再訓練なしで高く維持するのに対し、DARTSでは探索と派生ネットワークの間に substantial gap が生じ得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。