QUICK REVIEW

[論文レビュー] AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search

Linnan Wang, Yiyang Zhao|arXiv (Cornell University)|Mar 26, 2019

Advanced Neural Network Applications参考文献 57被引用数 57

ひとこと要約

AlphaXは、Meta-DNNを用いた分散モンテカルロ木探索を利用してニューラルアーキテクチャ探索を自動化し、CIFAR-10およびImageNetで高速な全体最適化と高い精度を達成し、NASBench-101でスケーラブルな性能を示します。

ABSTRACT

Neural Architecture Search (NAS) has shown great success in automating the design of neural networks, but the prohibitive amount of computations behind current NAS methods requires further investigations in improving the sample efficiency and the network evaluation cost to get better results in a shorter time. In this paper, we present a novel scalable Monte Carlo Tree Search (MCTS) based NAS agent, named AlphaX, to tackle these two aspects. AlphaX improves the search efficiency by adaptively balancing the exploration and exploitation at the state level, and by a Meta-Deep Neural Network (DNN) to predict network accuracies for biasing the search toward a promising region. To amortize the network evaluation cost, AlphaX accelerates MCTS rollouts with a distributed design and reduces the number of epochs in evaluating a network by transfer learning guided with the tree structure in MCTS. In 12 GPU days and 1000 samples, AlphaX found an architecture that reaches 97.84\% top-1 accuracy on CIFAR-10, and 75.5\% top-1 accuracy on ImageNet, exceeding SOTA NAS methods in both the accuracy and sampling efficiency. Particularly, we also evaluate AlphaX on NASBench-101, a large scale NAS dataset; AlphaX is 3x and 2.8x more sample efficient than Random Search and Regularized Evolution in finding the global optimum. Finally, we show the searched architecture improves a variety of vision applications from Neural Style Transfer, to Image Captioning and Object Detection.

研究の動機と目的

ニューラルアーキテクチャ設計における人間の手動作業を削減し、NAS探索の効率を加速させる動機づけ。
サンプリングと評価を導くためにMCTSと予測的なMeta-DNNを組み合わせた、スケーラブルなNASフレームワークを提案する。
アーキテクチャ探索中に生成されたデータを用いたMeta-DNNのエンドツーエンド学習を実証する。
ネットワーク評価を加速し、分散型の大規模探索を可能にする転移学習を示す。

提案手法

オンライン統計 N(s,a) および Q(s,a) を用いてアーキテクチャ探索を導くために Monte Carlo Tree Search を使用する。
Meta-DNNを統合してアーキテクチャの性能を予測しローアウトを高速化する；探索中に収集されたデータでMeta-DNNを更新する（エンドツーエンド学習）。
NASNetとNASBenchのアーキテクチャをMeta-DNN入力の固定長ベクトルにエンコードする。
子アーキテクチャを訓練する際に親アーキテクチャの重みを再利用することで転移学習を取り入れる。
推定精度と真の精度を用いた2相のバックプロパゲーションを備え、マスター・スケジューラと複数のGPUトレーナー間で探索を分散させる。

実験結果

リサーチクエスチョン

RQ1スケーラブルなMCTSベースのエージェントはNASタスクでランダム探索や貪欲法を上回ることができるか？
RQ2Meta-DNNは未知のアーキテクチャの性能を正確に予測して探索を加速できるか？
RQ3転移学習はNASにおける評価速度と最終的なアーキテクチャ品質にどう影響するか？
RQ4分散トレーニングがNAS探索の効率性とスケーラビリティに与える影響は何か？

主な発見

AlphaXはNASBench-101で最適アーキテクチャを見つけるのに、Random SearchおよびRegularized Evolutionより最大で3倍速い。
CIFAR-10では、AlphaXは高い精度を達成し、ImageNetのような大規模データセットでも競争力のある結果を示す。
Meta-DNNは正確な性能推定を提供し、ローアウトをより情報に基づいたものにすることで探索効率を改善する。
転移学習は子アーキテクチャが目標精度に到達するために必要なエポック数を大幅に削減する。
分散型AlphaXはマスターノードと複数のGPUクライアントを用いたスケーラブルなNASを実現し、広大な探索空間を効果的に維持・探索する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。