QUICK REVIEW

[論文レビュー] Meta Architecture Search

Albert Shaw, Wei Wei|arXiv (Cornell University)|Dec 22, 2018

Advanced Neural Network Applications被引用数 26

ひとこと要約

本論文は、ベイジアン定式化を用いてタスクに依存しないニューラルアーキテクチャ空間上の事前分布を学習する、メタラーニングフレームワークであるBayesian Meta Architecture SEarch (BASE) を紹介する。多様な画像分類タスクの分布上で訓練することで、BASEは新しいタスクへの高速な、1時間未満の適応を可能にし、ImageNetでは25.7%のtop-1誤差、CIFAR-10では2.83%のtop-1誤差を達成する。これは標準的なNASと比較して計算コストを顕著に削減しつつ、最先端の性能を達成している。

ABSTRACT

Neural Architecture Search (NAS) has been quite successful in constructing state-of-the-art models on a variety of tasks. Unfortunately, the computational cost can make it difficult to scale. In this paper, we make the first attempt to study Meta Architecture Search which aims at learning a task-agnostic representation that can be used to speed up the process of architecture search on a large number of tasks. We propose the Bayesian Meta Architecture SEarch (BASE) framework which takes advantage of a Bayesian formulation of the architecture search problem to learn over an entire set of tasks simultaneously. We show that on Imagenet classification, we can find a model that achieves 25.7% top-1 error and 8.1% top-5 error by adapting the architecture in less than an hour from an 8 GPU days pretrained meta-network. By learning a good prior for NAS, our method dramatically decreases the required computation cost while achieving comparable performance to current state-of-the-art methods - even finding competitive models for unseen datasets with very quick adaptation. We believe our framework will open up new possibilities for efficient and massively scalable architecture search research across multiple tasks.

研究の動機と目的

複数のタスクに対して繰り返しニューラルアーキテクチャ探索（NAS）を実行する高コスト問題に対処するため、共有でタスクに依存しない事前分布を学習すること。
事前学習済みのメタネットワークを用いて、新しいタスクへのアーキテクチャおよび重みの迅速な適応を可能にすること。
タスクの分布上でのベイジアン推論問題としてアーキテクチャ探索を定式化し、一般化性能と効率性を向上させること。
ImageNet、CIFAR-10、SVHN、および少サンプル学習を含む多様なベンチマークで、フレームワークの有効性を実証すること。
最適化埋め込みとGumbel-Softmaxを用いて、微分可能でエンドツーエンドのメタアーキテクチャ学習を実現すること。

提案手法

アーキテクチャと重みの事後分布をタスクの分布上にモデル化する、アーキテクチャ探索のベイジアン定式化を提案する。
Gumbel-Softmaxパラメータ化を用いた確率的ニューラルネットワークを採用し、アーキテクチャ空間内のすべてのパスに対して微分可能なアーキテクチャ探索を可能にする。
最適化埋め込みを用いて、タスク固有の情報を条件として事後分布に与え、重みとアーキテクチャの共同学習を可能にする。
ImageNetからクラスサブセットと画像解像度（32×32、64×64、224×224）を変化させることで得られる2.634×10^23個のタスクの合成タスク分布上でメタネットワークを訓練する。
事前学習済みのメタネットワークを微調整することで、新しいタスクに適応し、1時間未満でアーキテクチャと重みを同時に最適化する。
少サンプル学習に本フレームワークを適用する際、直接的にメタネットワークを用いて低ショット設定に一般化可能なアーキテクチャを探索する。

実験結果

リサーチクエスチョン

RQ11つのメタネットワークを、画像分類タスクの広範な分布にわたって、高速かつ正確にアーキテクチャ探索を可能にするように学習できるか？
RQ2タスク固有のNASと比較して、アーキテクチャ上にベイジアン事前分布を学習することで、一般化性能の向上と探索コストの低減はどの程度達成できるか？
RQ3ImageNetに類似したタスクで学習したメタネットワークは、CIFAR-10 や Mini-Imagenet といった未学習のデータセットにどの程度一般化できるか？
RQ4適応段階でアーキテクチャパラメータを固定するのではなく、アーキテクチャと重みを同時に最適化することで、性能が向上するか？
RQ5データが極めて限られた状況における少サンプル学習に、メタアーキテクチャ探索フレームワークを効果的に適用できるか？

主な発見

BASEは、8 GPU日間の事前学習を用い、1時間未満でメタネットワークを適応させることで、ImageNetで25.7%のtop-1誤差、8.1%のtop-5誤差を達成した。
CIFAR-10では、1時間未満で適応されたメタネットワークが2.83%のtop-1誤差を達成し、効率性において標準的なNASを上回った。
5-way 5-shotのMini-Imagenetベンチマークでは、パラメータ数が少ないにもかかわらず、66.2%の精度を達成し、MAMLベースラインやDARTSアーキテクチャを上回った。
適応段階でアーキテクチャパラメータを固定すると性能が著しく低下し、アーキテクチャと重みの共同最適化の重要性が示された。
Gumbel-Softmaxパラメータ化は、DARTSで用いられる標準的なソフトマックス近似よりも優れたアーキテクチャを生成した。これは、探索品質の向上を示している。
メタネットワークはCIFAR-10で訓練されていないにもかかわらず、その事後分布が迅速にこのデータセットに適応した。これは、優れたゼロショット一般化能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。