[論文レビュー] ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse Coding
ISTA-NASはNASを疎なコーディング問題として定式化し、圧縮空間で微分可能な探索を行い、ISTAで疎なアーキテクチャを復元します;探索と評価の効率と整合性を向上させる二段階法と一段階法を提供します。
Neural architecture search (NAS) aims to produce the optimal sparse solution from a high-dimensional space spanned by all candidate connections. Current gradient-based NAS methods commonly ignore the constraint of sparsity in the search phase, but project the optimized solution onto a sparse one by post-processing. As a result, the dense super-net for search is inefficient to train and has a gap with the projected architecture for evaluation. In this paper, we formulate neural architecture search as a sparse coding problem. We perform the differentiable search on a compressed lower-dimensional space that has the same validation loss as the original sparse solution space, and recover an architecture by solving the sparse coding problem. The differentiable search and architecture recovery are optimized in an alternate manner. By doing so, our network for search at each update satisfies the sparsity constraint and is efficient to train. In order to also eliminate the depth and width gap between the network in search and the target-net in evaluation, we further propose a method to search and evaluate in one stage under the target-net settings. When training finishes, architecture variables are absorbed into network weights. Thus we get the searched architecture and optimized parameters in a single run. In experiments, our two-stage method on CIFAR-10 requires only 0.05 GPU-day for search. Our one-stage method produces state-of-the-art performances on both CIFAR-10 and ImageNet at the cost of only evaluation time.
研究の動機と目的
- NAS検索で使用される密なスーパーネットと評価のために使用される疎なターゲット・ネットとのギャップを縮小する動機づけ。
- 探索中の疎性を強制するために、NASを疎なコーディング問題として定式化する。
- ISTAベースのアーキテクチャ復元を備えた圧縮空間での微分可能な探索を開発する。
- ターゲットネット設定下で探索と評価を統一する一段階ISTA-NASを導入する。
提案手法
- 各中間ノードが疎な接続集合を選択するように、NASを疎なコーディング問題として表現する。
- 計測行列AとISTAを用いて圧縮空間で微分可能な探索を行い、疎なアーキテクチャzを復元する。
- RIPベースの議論に基づいて、圧縮空間の探索と元の空間のアーキテクチャの等価性を確立する。
- 二段階ISTA-NASは、ISTAベースのz復元と、疎なサブグラフ上のネットワーク重みおよびアーキテクチャパラメータの更新を交互に行う。
- 一段階ISTA-NASは、最終的なアーキテクチャパラメータをBNパラメータおよびネットワーク重みへ取り込むことにより、単一の実行で探索と評価を行う。
実験結果
リサーチクエスチョン
- RQ1探索過程での疎性を強制するために、NASを疎なコーディング問題として定式化できるか。
- RQ2ISTA復元を用いた圧縮空間での微分可能な探索が、事後的な疎化よりも評価と一致するアーキテクチャを生み出すか。
- RQ3ターゲットネット設定の下で、一段階ISTA-NASが探索と評価のギャップを解消できるか。
- RQ4CIFAR-10とImageNetにおけるISTA-NASの効率性と性能向上は、最先端の勾配ベースのNAS手法と比べてどの程度か。
主な発見
- 二段階ISTA-NASはCIFAR-10で0.05 GPU-dayの探索コストで2.54%のテストエラーを達成。
- 一段階ISTA-NASは単一の実行で統合された探索と評価を達成し、CIFAR-10で2.36%のテストエラー。
- ImageNetでの一段階ISTA-NASは、勾配ベースの探索コストが多くの二段階メソッドより低いまま、トップ1 24.0%とトップ5 7.1%を直接達成。
- CIFAR-10では、二段階ISTA-NASはバッチサイズに応じて探索コストを0.03–0.05 GPU-dayまで低減し、探索と評価の相関が改善。
- CIFAR-10では、比較対象手法の中で一段階法が探索と評価のカップリング最良の Kendall tau 相関を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。