[論文レビュー] BayesNAS: A Bayesian Approach for Neural Architecture Search
BayesNAS はハイリ req priors を用いた階層的自動関連性決定によりノード間の依存性をモデル化しエッジ削減を行う。これにより CIFAR-10 で約0.2 GPU-days の非常に高速な探索を実現し、ネットワーク圧縮にも対応する。
One-Shot Neural Architecture Search (NAS) is a promising method to significantly reduce search time without any separate training. It can be treated as a Network Compression problem on the architecture parameters from an over-parameterized network. However, there are two issues associated with most one-shot NAS methods. First, dependencies between a node and its predecessors and successors are often disregarded which result in improper treatment over zero operations. Second, architecture parameters pruning based on their magnitude is questionable. In this paper, we employ the classic Bayesian learning approach to alleviate these two issues by modeling architecture parameters using hierarchical automatic relevance determination (HARD) priors. Unlike other NAS methods, we train the over-parameterized network for only one epoch then update the architecture. Impressively, this enabled us to find the architecture on CIFAR-10 within only 0.2 GPU days using a single GPU. Competitive performance can be also achieved by transferring to ImageNet. As a byproduct, our approach can be applied directly to compress convolutional neural networks by enforcing structural sparsity which achieves extremely sparse networks without accuracy deterioration.
研究の動機と目的
- Edge 依存性とゼロ操作バイアスを解決することで one-shot NAS のニューラルアーキテクチャ探索を改善する。
- 階層的自動関連性決定 priors によるスパース性と堅牢なエッジ pruning を促進する。
- ヘッセン進化に基づく分散更新を用いた反復再重み付け最適化により高速探索を実現する。
- 大規模ネットワークの構造スパース性による直接的なネットワーク圧縮を、精度低下なしに可能とする。
提案手法
- 階層的自動関連性決定 (HARD) priors を用いて祖先および後裔間の依存性を捉えるモデルアーキテクチャパラメータを表現する。
- Switch を用いた pruning と、エッジ重みと祖先の活性を結合させる確率的定式化を用いて prune を表現する。
- 過剰パラメータ化されたネットワークを1エポック学習し、次にアーキテクチャパラメータを iteratively re-weighted l1-type scheme で更新する。
- ポスタ리オVariance を推定する Laplace 近似を用い、エントロピーに基づく基準 gamma で prune を誘導する。エントロピーが非正になると prune する。
- 大規模ネットワークへ適用可能な二次更新を可能にする高速な Hessian 計算を提供する。
- objective と pruning 基準を調整することで proxy タスクやネットワーク圧縮へ拡張する。
実験結果
リサーチクエスチョン
- RQ1 HARD priors が DAG ベースの NAS におけるエッジ間の依存性を適切にモデルでき、 pruning 後の連結導出グラフを保証できるか。
- RQ2 アーキテクチャパラメータのベイズ的取り扱いは、ゼロ/非ゼロ操作の特定において大きさベースの pruning より優れているか。
- RQ3 アーキテクチャ更新前の1エポックで高速に探索しつつ CIFAR-10 および ImageNet で競争力のある精度を維持できるか。
- RQ4 BayesNAS は構造スパース性による直接的なネットワーク圧縮を、精度低下なしに実現できるか。
主な発見
| Architecture | Test Error / Top-1 (or Error for CIFAR-10) % | Params (M) | Search Cost / GPU days | Search Method |
|---|---|---|---|---|
| DenseNet-BC (Huang et al., 2017) | 3.46 | 25.6 | - | manual |
| NASNet-A + cutout (Zoph et al., 2018) | 2.65 | 3.3 | 1800 | RL |
| AmoebaNet-B + cutout (Real et al., 2019) | 2.55 ± 0.05 | 2.8 | 3150 | evolution |
| Hierarchical Evo (Liu et al., 2018b) | 3.75 ± 0.12 | 15.7 | 300 | evolution |
| PNAS (Liu et al., 2018a) | 3.41 ± 0.09 | 3.2 | 225 | SMBO |
| ENAS + cutout (Pham et al., 2018) | 2.89 | 4.6 | 0.5 | RL |
| Random search baseline + cutout (Liu et al., 2019b) | 3.29 ± 0.15 | 3.2 | 1 | random |
| DARTS (2nd order bi-level) + cutout (Liu et al., 2019b) | 2.76 ± 0.09 | 3.4 | 1 | gradient |
| SNAS (single-level) + moderate con + cutout (Xie et al., 2019) | 2.85 ± 0.02 | 2.8 | 1.5 | gradient |
| DSO-NAS-share+cutout (Zhang et al., 2019b) | 2.84 ± 0.07 | 3.0 | 1 | gradient |
| Proxyless-G + cutout (Cai et al., 2019) | 2.08 | 5.7 | - | gradient |
| BayesNAS + cutout + λw^o=0.01 | 3.02 ± 0.04 | 2.59 ± 0.23 | 0.2 | gradient |
| BayesNAS + cutout + λw^o=0.007 | 2.90 ± 0.05 | 3.10 ± 0.15 | 0.2 | gradient |
| BayesNAS + cutout + λw^o=0.005 | 2.81 ± 0.04 | 3.40 ± 0.62 | 0.2 | gradient |
| BayesNAS + TreeCell-A + Pyramid backbone + cutout | 2.41 | 3.4 | 0.1 | gradient |
| Table not shown in this excerpt (ImageNet mobile results table) |
- BayesNAS は単一の GPU で CIFAR-10 アーキテクチャ探索を約 0.2 GPU-days で達成する。
- 手法は CIFAR-10 の競合的なアーキテクチャを生み出し、ImageNet へ転移させた際にも高い性能を示す。
- HARD priors とエントロピーに基づく prune はゼロオペレーションを優先的にゼロ化し、連結性を保つ。
- ほとんどまたは全く精度を損なわない極端にスパースなネットワークを副産物として実現可能で、圧縮の可能性を開く。
- BayesNAS はいくつかの最先端 NAS 手法と比較して探索コストを低く抑えつつ、ベイズ的な利点(ハイパーパラメータ調整の軽減、過剛性の低減)を提供する。
- CIFAR-10 および ImageNet のプルーンされたアーキテクチャは、モバイル設定で manual および NAS ベースラインと競争力のある top-1/top-5 性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。