[論文レビュー] ASAP: Architecture Search, Anneal and Prune
ASAPは differentiable, annealable NAS 方法で、探索中に劣る操作を徐々に剪定し、探索時間を大幅に削減しつつ精度競争力を達成する。
Automatic methods for Neural Architecture Search (NAS) have been shown to produce state-of-the-art network models. Yet, their main drawback is the computational complexity of the search process. As some primal methods optimized over a discrete search space, thousands of days of GPU were required for convergence. A recent approach is based on constructing a differentiable search space that enables gradient-based optimization, which reduces the search time to a few days. While successful, it still includes some noncontinuous steps, e.g., the pruning of many weak connections at once. In this paper, we propose a differentiable search space that allows the annealing of architecture weights, while gradually pruning inferior operations. In this way, the search converges to a single output network in a continuous manner. Experiments on several vision datasets demonstrate the effectiveness of our method with respect to the search cost and accuracy of the achieved model. Specifically, with $0.2$ GPU search days we achieve an error rate of $1.68\%$ on CIFAR-10.
研究の動機と目的
- アニーリング可能で微分可能な探索空間を導入することにより neural architecture search の時間を短縮する。
- 探索段階で弱い接続を徐々に剪定することにより最終アーキテクチャの品質を向上させる。
- 収束して強いアーキテクチャへ到達することを保証するためのアニーリングスケジュールと剪定方針に関する理論的指針を提供する。
- CIFAR-10における最先端NAS手法と比較したASAPの競争力を示し、他データセットへの転移性を示す。
提案手法
- NASセル内の混合演算に対して微分可能でアニーリング可能な検索空間を定義する。
- 各エッジでの演算を選択するためにGibbs-Boltzmann様の分布 Phi_o(alpha; T) を用い、時間とともにアニーリングされる温度 Tを使用する。
- 検証損失の勾配降下によりアーキテクチャ重み alpha を更新し、訓練損失に対してネットワーク重み omega を更新する。
- Phi_o(alpha; T) を時間とともに減衰する閾値 theta_t で閾値処理して劣位な演算を徐々に剪定し、継続的な剪定を可能にする。
- 選択されたスケジュールの下で劣位演算を剪定するための理論的なPAC風保証(0, δ)-PAC)と実用的な指数的アニーリングスケジュールを提供する(定理2)。
- 学習されたノーマルセルとリダクションセルを積み上げて最終ネットワークを形成する。DARTSのパラダイムに従うが、アニーリングと徐々の剪定を取り入れる。
実験結果
リサーチクエスチョン
- RQ1アニーリング可能で微分可能な探索空間は精度を犠牲にすることなくNASの効率を改善できるか。
- RQ2探索中に接続を徐々に剪定することは、探索終了時のハード剪定よりも収束を速め、最終的なアーキテクチャを改善できるか。
- RQ3アニーリングスケジュールと剪定閾値をどのように設計すべきか、探索の探索と収束のバランスをどう取るべきか。
- RQ4ASAPは CIFAR-10 で他の NAS 手法と比べてどの程度の性能を示し、ImageNet などの大規模データセットへの転移性はどうか。
主な発見
| アーキテクチャ | テストエラー | パラメータ | 検索コスト (GPU日) |
|---|---|---|---|
| AmoebaNet-A | 3.34 ± 0.06 | 3150 | N/A |
| AmoebaNet-B | 2.55 ± 0.05 | 3150 | N/A |
| NASNet-A | 2.65 | 1800 | N/A |
| PNAS | 3.41 | 150 | N/A |
| SNAS | 2.85 ± 0.02 | 2.8 | N/A |
| DSO-NAS | 2.95 ± 0.12 | 3 | N/A |
| PARSEC | 2.81 ± 0.03 | 3.7 | N/A |
| DARTS(2nd) | 2.76 ± 0.06 | 3.4 | 0.6 |
| PC-DARTS DL2 | 2.51 ± 0.09 | 4.0 | 0.82 |
| DARTS+ | 2.37 ± 0.13 | 4.3 | 0.6 |
| ENAS | 2.89 | 4.6 | 0.5 |
| DARTS(1nd) | 2.94 | 2.9 | 0.4 |
| P-DARTS | 2.50 | 3.4 | 0.3 |
| DARTS(1nd) | 2.94 | 2.9 | 0.4 |
| NAONet-WS | 3.53 | 2.5 | 0.3 |
| ASAP-Small | 1.99 | 2.5 | 0.2 |
| ASAP-Medium | 1.75 | 3.7 | 0.2 |
| ASAP-Large | 1.68 | 6.0 | 0.2 |
- ASAPは探索時間を数時間に短縮し、CIFAR-10 のテスト誤差が従来のNAS手法に対して競合する、あるいはそれを上回る(例:ASAP-Large: 1.68% テスト誤差)。
- ASAP-Small、ASAP-Medium、ASAP-Largeはそれぞれ CIFAR-10 のテスト誤差 1.99%、1.75%、1.68% を達成し、探索コストは比較的低い。
- 探索中に継続的な剪定を可能とすることでエポックあたりの時間を短縮し、探索が進むほどスパース性が高まる。
- ASAPは CIFAR-10 の精度でいくつかの最先端NAS手法を上回りつつ、探索コストを非常に低く抑えている(例:特定の実行で 0.2 GPU days)。
- ASAP アーキテクチャは CIFAR-10 で学習され、ImageNet や他のベンチマークに効果的に転移し、探索セルの転移性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。