Skip to main content
QUICK REVIEW

[論文レビュー] You Only Search Once: Single Shot Neural Architecture Search via Direct Sparse Optimization

Xinbang Zhang, Zehao Huang|arXiv (Cornell University)|Nov 5, 2018
Advanced Neural Network Applications参考文献 25被引用数 43
ひとこと要約

DSO-NASはNASを完全に連結されたブロック DAG 上の直接的なスパース最適化として再定義し、重みとスパースなエッジスケーリングを同時に学習して一度でアーキテクチャを剪定します。探索コストを削減しつつ競争力のある結果を達成し、大規模データセットへの適用を可能にします。

ABSTRACT

Recently Neural Architecture Search (NAS) has aroused great interest in both academia and industry, however it remains challenging because of its huge and non-continuous search space. Instead of applying evolutionary algorithm or reinforcement learning as previous works, this paper proposes a Direct Sparse Optimization NAS (DSO-NAS) method. In DSO-NAS, we provide a novel model pruning view to NAS problem. In specific, we start from a completely connected block, and then introduce scaling factors to scale the information flow between operations. Next, we impose sparse regularizations to prune useless connections in the architecture. Lastly, we derive an efficient and theoretically sound optimization method to solve it. Our method enjoys both advantages of differentiability and efficiency, therefore can be directly applied to large datasets like ImageNet. Particularly, On CIFAR-10 dataset, DSO-NAS achieves an average test error 2.84\%, while on the ImageNet dataset DSO-NAS achieves 25.4\% test error under 600M FLOPs with 8 GPUs in 18 hours.

研究の動機と目的

  • 高価なコントローラや予測器を避け、微分可能で単一モデルの検索フレームワークを提供することにより、NASを民主化する。
  • NASの探索空間を完全なDAGとして表現し、エッジのスケーリングに対するスパース正則化で剪定する。
  • 予算の下で重みと構造パラメータを共同で学習する効率的な最適化手法を開発・適用する。

提案手法

  • NASを完全なDAGブロックのエッジを剪定する形として表現し、各エッジにλというスケーリング因子を付与する(λが0のエッジは剪定される)。
  • ブロック探索を、出力 h(i) = O(i)(sum_j λ(j→i) h(j)) の形で定式化する。λはスパース正則化(L1)で学習され、スパース性を誘導する。
  • W(重み)とλを、構造の過学習を防ぐための二段階トレーニング(Wとλでデータを分割)を伴う、加速付き近端勾配法(APG-NAG)で jointly 最適化する。
  • 予算対応正則化(Adaptive FLOPs または Adaptive MAC)を用いて、FLOPsやメモリ/計算制約の下でアーキテクチャを誘導する。
  • 探索空間には二つのモードが含まれる:ブロック共有λとブロック独立λ(フル検索)。
  • ゼロλエッジと孤立した演算を剪定して最終アーキテクチャを得、ゼロから再訓練する。

実験結果

リサーチクエスチョン

  • RQ1コントローラや予測器を用いる代わりに、完全連結のアーキテクチャ空間を直接剪定するだけでNASを効果的に行えるか。
  • RQ2微分可能でスパース最適化の定式化は、ImageNet のような大規模データセットでスケーラブルな NASを可能にするか。
  • RQ3FLOPsとMACの制約下で、予算対応正則化が発見されたアーキテクチャにどのように影響するか。

主な発見

  • CIFAR-10では、DSO-NASは share variant で平均テスト誤差2.84%(±0.07)を達成し、同等のパラメータ予算下で競争力のある結果を示す。
  • ImageNetでは、DSO-NASは4.8B FLOPs程度でトップ1 25.4% / トップ5 8.4% の精度を達成し、少ない探索コストで同等レベルのパラメータ数を維持し、ImageNetの直接検索を可能にする。
  • DSO-NASは、複数のRL/進化/ワンショットNAS法で報告される4k–3k GPU-daysと比較して、探索コストを大幅に削減(約1 GPU日)する。
  • 適応型予算戦略(Adaptive FLOPs と Adaptive MAC)は、固定FLOPsやMAC予算下で、ブロック間のエッジ剪定を調整することで性能を向上させる。
  • ブロック共有なしのブロックベース探索(DSO-NAS-full)は競争力があり、ブロック共有版(DSO-NAS-share)は探索計算量を削減しつつ、より良いまたは同等の結果を出すことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。