[論文レビュー] Bridging the Gap between Sample-based and One-shot Neural Architecture Search with BONAS
BONAS は Graph Convolutional Network の埋め込みと Bayesian sigmoid regression を組み合わせて、Bayesian optimization ベースの探索を導くと同時に、ウェイト共有を用いて有望なアーキテクチャのバッチを効率的に評価し、サンプルベースの NAS の信頼性と速度を向上させる。
Neural Architecture Search (NAS) has shown great potentials in finding better neural network designs. Sample-based NAS is the most reliable approach which aims at exploring the search space and evaluating the most promising architectures. However, it is computationally very costly. As a remedy, the one-shot approach has emerged as a popular technique for accelerating NAS using weight-sharing. However, due to the weight-sharing of vastly different networks, the one-shot approach is less reliable than the sample-based approach. In this work, we propose BONAS (Bayesian Optimized Neural Architecture Search), a sample-based NAS framework which is accelerated using weight-sharing to evaluate multiple related architectures simultaneously. Specifically, we apply Graph Convolutional Network predictor as a surrogate model for Bayesian Optimization to select multiple related candidate models in each iteration. We then apply weight-sharing to train multiple candidate models simultaneously. This approach not only accelerates the traditional sample-based approach significantly, but also keeps its reliability. This is because weight-sharing among related architectures are more reliable than those in the one-shot approach. Extensive experiments are conducted to verify the effectiveness of our method over many competing algorithms.
研究の動機と目的
- サンプルベースNASの効率性を向上させることで、効率的で信頼性の高いニューラルアーキテクチャ検索(NAS)を動機付ける。
- グラフ構造のアーキテクチャを自然に扱える、手作りのカーネルを必要としない代替モデルを開発する。
- 高い潜在性を持つアーキテクチャの小さなサブセットをウェイト共有することで評価を加速する。
- クローズドドメインNASベンチマークとオープンドメインの探索空間の両方でBONAS の利点を示す。
- アーキテクチャとデータセットを跨るBONASの移植性と頑健性を示す。
提案手法
- ニューラルアーキテクチャをグラフとしてエンコードし、Graph Convolutional Network (GCN) を用いてグローバルなグラフ埋め込みを導出する。
- ガウス過程の代理モデルを、GCN embeddings 上の Bayesian sigmoid regression (BSR) に置換して、Bayesian optimization (BO) の予測平均と分散を得る。
- 高精度のアーキテクチャを重視する指数加重損失を用いて代替モデルを学習する。
- クエリフェーズでは、top-k BO選択アーキテクチャのバッチをウェイト共有して小さなスーパーネットワークを形成し、それらを一括で訓練し、公平な評価を保証するために重みを再初期化する。
- GCN+BSR 代替モデルが提供する平均/分散を用いた UCB アクイジションでプールから候補を選択する。
- 新たに評価されたアーキテクチャで逐次代替モデルを更新し、埋め込みを洗練させる。
実験結果
リサーチクエスチョン
- RQ1グラフベースの埋め込みとベイズ推定代替モデルが、手作りのカーネルを用いずにBOベースのNAS性能を向上させることができるか?
- RQ2小さな高潜在性サブセットのアーキテクチャに対するウェイト共有は、フル訓練や大規模なウェイト共有よりも信頼性が高く高速な評価を生むか?
- RQ3標準NASベンチマーク(NAS-Bench-101/NAS-Bench-201)およびオープンドメイン探索空間(例:NASNet)における BONAS の性能を、最先端手法と比較してどうか?
- RQ4BONAS は他のモデルファミリー(例:LSTMセル)へ移植可能で、埋め込みサイズに対して頑健か?
主な発見
- GCNベースの予測子は、NAS-Bench-101/201 および LSTM-12K において、MLP/LSTM/Meta-NN のベースラインよりも実際のアーキテクチャ性能との相関が高い。
- BONAS はクローズドドメイン NAS ベンチマークで競合ベースラインを一貫して上回る。
- オープンドメイン NAS(NASNet 探索空間)では、CIFAR-10 におけるトップ1エラーが競争力があり、いくつかのベースラインよりもはるかに少ないGPU日数で済む。
- BONAS は、スーパーネットワーク段階で小バッチのウェイト共有(k が約100)により、数千のアーキテクチャの効率的な探索と評価を可能にする。
- CIFAR-10 から ImageNet への BONAS 発見アーキテクチャの転移は競争力のある結果を生み、BONAS由来のセルはモバイル制約下で強力な top-1/top-5 指標を達成する。
- アブレーションにより、 weighted loss を用いた GCN+BSR 代替モデルとウェイト共有クエリ段階が、性能と効率の向上に有益であることが示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。