QUICK REVIEW

[論文レビュー] Probabilistic Neural Architecture Search

Francesco Paolo Casale, Jonathan Gordon|arXiv (Cornell University)|Feb 13, 2019

Advanced Neural Network Applications参考文献 30被引用数 70

ひとこと要約

PARSECは、高性能なアーキテクチャの分布を学習するメモリ効率の高い確率的NASを導入し、小規模サロゲート問題から大規模タスクへ転送可能で、探索コストが格段に低いにもかかわらず競争力のある結果を達成します。

ABSTRACT

In neural architecture search (NAS), the space of neural network architectures is automatically explored to maximize predictive accuracy for a given task. Despite the success of recent approaches, most existing methods cannot be directly applied to large scale problems because of their prohibitive computational complexity or high memory usage. In this work, we propose a Probabilistic approach to neural ARchitecture SEarCh (PARSEC) that drastically reduces memory requirements while maintaining state-of-the-art computational complexity, making it possible to directly search over more complex architectures and larger datasets. Our approach only requires as much memory as is needed to train a single architecture from our search space. This is due to a memory-efficient sampling procedure wherein we learn a probability distribution over high-performing neural network architectures. Importantly, this framework enables us to transfer the distribution of architectures learnt on smaller problems to larger ones, further reducing the computational cost. We showcase the advantages of our approach in applications to CIFAR-10 and ImageNet, where our approach outperforms methods with double its computational cost and matches the performance of methods with costs that are three orders of magnitude larger.

研究の動機と目的

大規模データセットへ prohibitive なメモリ使用量を伴わずにスケールするNASを動機づける。
高性能なアーキテクチャの分布を学習する確率的フレームワークを提案する。
小さなサロゲート問題からより大きなネットワークとデータセットへアーキテクチャ分布を転送可能にする。
同等の計算コストを peers と比較してCIFAR-10とImageNetで競争力のある結果を達成する。

提案手法

DARTS系スペースで一般的な7つのプリミティブ演算を用いたセルベースの検索空間（ノーマルセルとリダクションセル）を定義する。
各ノードの入力/演算選択に対して独立したカテゴリ因子を持つ事前分布 p(α|π) を導入する。
アーキテクチャ探索を条件付き尤度 p(y|X,v,π)=∫ p(y|X,v,α)p(α|π)dα として定式化し、重要度重み付きモンテカルロ実証ベイズで最適化する。
p(α|π) から子アーキテクチャをサンプルし、重要度重みを計算してネットワーク重み v とアーキテクチャ超パラメータ π の両方を更新する。
このサンプリングベースのアプローチによってメモリ使用量を単一アーキテクチャの訓練と同程度に制約し、完全サイズのネットワーク上で直接探索を可能にする。
任意で学習したアーキテクチャ分布をより大きなネットワークやデータセットへ転送し、ターゲットタスクでファインチューニングする。

実験結果

リサーチクエスチョン

RQ1確率的NASフレームワークは高性能なアーキテクチャの分布を学習でき、単一のアーキテクチャを訓練するのと同程度のメモリ効率で訓練できるか？
RQ2小さなサロゲート問題で学習したアーキテクチャ分布を大きなネットワーク/データセットへ転送することは、効率と性能を改善するか？
RQ3CIFAR-10とImageNetでのPARSECの性能と探索コストは、最先端のNAS手法と比べてどうか？
RQ4完全サイズのネットワークでアーキテクチャ分布をファインチューニングすることは最終精度に有益か？

主な発見

PARSECはCIFAR-10で同様の探索空間コストを持つ手法と同等またはそれを上回り、巨大ネットワークでファインチューニングした後さらに結果を改善する。
メモリ使用量は単一アーキテクチャを訓練するのと同等で、完全サイズのネットワークとより大きなデータセット上で直接探索を可能にする。
小さなサロゲートネットワークで学習したアーキテクチャ分布は、大規模な問題へ転送してファインチューニングでき、総計算コストを削減する。
CIFAR-10では、ファインチューニングを行ったPARSECは、多くのベースラインよりもはるかに低い探索コストで競争力のある精度を達成する。
ImageNetでは、PARSECで同様の探索コストを持つ手法を上回り、はるかに高価な手法の性能に近づく。
CIFAR-10での最良のPARSECネットワークとその後のImageNetでのファインチューニングは、強力なスケーラビリティと効率を示し、コストの数オーダーオブマグニチュードの差でいくつかの同時代手法を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。