[論文レビュー] Neural Architecture Search with Bayesian Optimisation and Optimal Transport
NASBOTはニューラルアーキテクチャのベイズ最適化を行い、新規のOTMANN距離と進化戦略を用いて獲得関数を最適化。MLP/CNNモデル選択タスクでベースラインを上回る。
Bayesian Optimisation (BO) refers to a class of methods for global optimisation of a function $f$ which is only accessible via point evaluations. It is typically used in settings where $f$ is expensive to evaluate. A common use case for BO in machine learning is model selection, where it is not possible to analytically model the generalisation performance of a statistical model, and we resort to noisy and expensive training and validation procedures to choose the best model. Conventional BO methods have focused on Euclidean and categorical domains, which, in the context of model selection, only permits tuning scalar hyper-parameters of machine learning algorithms. However, with the surge of interest in deep learning, there is an increasing demand to tune neural network \emph{architectures}. In this work, we develop NASBOT, a Gaussian process based BO framework for neural architecture search. To accomplish this, we develop a distance metric in the space of neural network architectures which can be computed efficiently via an optimal transport program. This distance might be of independent interest to the deep learning community as it may find applications outside of BO. We demonstrate that NASBOT outperforms other alternatives for architecture search in several cross validation based model selection tasks on multi-layer perceptrons and convolutional neural networks.
研究の動機と目的
- 高価なネットワーク評価を伴う効率的なニューラルアーキテクチャ検索の動機付け。
- 最適輸送を介して計算されるアーキテクチャの距離指標(OTMANN)を導入。
- アーキテクチャのGaussianプロセスベースのBOフレームワークであるNASBOTを開発。
- 複数のデータセットでNASBOTがベースラインより優れた性能を示す。
提案手法
- 層の質量と経路長ベースの構造情報を持つグラフとしてニューラルアーキテクチャを定義する。
- ラベル不一致、非割当、構造的ペナルティを組み込んだ層間の質量輸送を最小化するOTMANN距離を提案する。
- カーネル 〚e^{-eta d^p}〛を用いたGaussian過程に組み込むための最適輸送プログラムとしてOTMANNを定式化する。
- NASBOTを構築する:GP事前分布とEI獲得を用いたBO手法で、獲得を最適化する進化アルゴリズムを用いる。
- 候補アーキテクチャを探索するための突然変異によるアーキテクチャ空間の拡張を用いる。
- 大規模な探索空間へスケールさせるための実用的な実装と拡張について議論する。
実験結果
リサーチクエスチョン
- RQ1離散的なニューラルアーキテクチャ上でベイズ最適化をいかに効果的に行えるか。
- RQ2OTMANNを用いたNASBOTは、アーキテクチャ探索において RAND、EA、TreeBO のベースラインを上回るか(タスク間で)?
- RQ3アーキテクチャ距離(OTMANN)の特性は一般化性能とどのように相関するか?
- RQ4NASBOTはMLPとCNNの探索空間の両方を扱い、並列評価でスケールできるか?
主な発見
| Method | Blog (60K,281) | Indoor (21K,529) | Slice (54K,385) | Naval (12K,17) | Protein (46K,9) | News (40K,61) | Cifar10 (60K,3K) | Cifar10 150K iterations |
|---|---|---|---|---|---|---|---|---|
| RAND | 0.780 \u00b1 0.034 | 0.115 \u00b1 0.023 | 0.758 \u00b1 0.041 | 0.0103 \u00b1 0.002 | 0.948 \u00b1 0.024 | 0.762 \u00b1 0.013 | 0.1342 \u00b1 0.002 | 0.0914 \u00b1 0.008 |
| EA | 0.806 \u00b1 0.040 | 0.147 \u00b1 0.010 | 0.733 \u00b1 0.041 | 0.0079 \u00b1 0.004 | 1.010 \u00b1 0.038 | 0.758 \u00b1 0.038 | 0.1411 \u00b1 0.002 | 0.0915 \u00b1 0.010 |
| TreeBO | 0.928 \u00b1 0.053 | 0.168 \u00b1 0.023 | 0.759 \u00b1 0.079 | 0.0102 \u00b1 0.002 | 0.998 \u00b1 0.007 | 0.866 \u00b1 0.085 | 0.1533 \u00b1 0.004 | 0.1121 \u00b1 0.004 |
| NASBOT | 0.731 \u00b1 0.029 | 0.117 \u00b1 0.008 | 0.615 \u00b1 0.044 | 0.0075 \u00b1 0.002 | 0.902 \u00b1 0.033 | 0.752 \u00b1 0.024 | 0.1209 \u00b1 0.003 | 0.0869 \u00b1 0.004 |
- NASBOTは複数の回帰・分類データセットにおいてクロスバリデーション結果で RAND、EA、TreeBO のベースラインを一貫して上回る。
- NASBOTは報告された実験のいくつかのデータセット(例:Blogs、Indoor、Slice、Naval、Protein、News、CIFAR-10)で最良のテスト性能を達成。
- このアプローチはアーキテクチャ空間の効率的なナビゲーションとベースラインに比べた高性能モデルへの収束を迅速化することを示す。
- OTMANN距離はアーキテクチャ間の意味のある類似性評価を提供し、アーキテクチャ探索のGPベースBOを有効にする。
- 著者はOTMANNとNASBOTのPython実装を提供している。
- CIFAR-10ではNASBOTが競争力のあるモデルを見つけ、それをさらなる訓練で強力なテスト性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。