[論文レビュー] Finding Competitive Network Architectures Within a Day Using UCT
本論文では、MNIST、SVHN、CIFAR-10で1つのGPUデイで競争力のある性能を達成する神経ネットワークアーキテクチャ探索を自動化するため、2つの新規なUCTベースのアルゴリズムを組み込んだモンテカルロ木探索を提案する。類似したアーキテクチャ間で情報共有を行い、Net2Netの知識移譲を活用することで、限られた時間制約下で先行する自動化および人間が設計したアーキテクチャを上回る性能を発揮する。
The design of neural network architectures for a new data set is a laborious task which requires human deep learning expertise. In order to make deep learning available for a broader audience, automated methods for finding a neural network architecture are vital. Recently proposed methods can already achieve human expert level performances. However, these methods have run times of months or even years of GPU computing time, ignoring hardware constraints as faced by many researchers and companies. We propose the use of Monte Carlo planning in combination with two different UCT (upper confidence bound applied to trees) derivations to search for network architectures. We adapt the UCT algorithm to the needs of network architecture search by proposing two ways of sharing information between different branches of the search tree. In an empirical study we are able to demonstrate that this method is able to find competitive networks for MNIST, SVHN and CIFAR-10 in just a single GPU day. Extending the search time to five GPU days, we are able to outperform human architectures and our competitors which consider the same types of layers.
研究の動機と目的
- 計算リソースが限られた研究者にとって実用的な、自動的で効率的なニューラルアーキテクチャ探索を可能にすること。
- 数か月にわたる競争力のあるネットワークアーキテクチャの発見を、1GPUデイ未満に短縮すること。
- スケーラブルで効果的な探索手法を開発し、人間が設計したネットワーク性能を同等または上回ること。
- 現実世界の環境において計算が非現実的であるとされる、従来の強化学習およびニューロエボリューション手法の課題に対処すること。
提案手法
- アーキテクチャ探索を、部分的アーキテクチャを状態として表現し、層の追加を行動とするマルコフ決定過程としてモデル化する。
- 2つのUCT変種を提案する:1つは類似した状態における類似した行動間で情報を共有し、もう1つは過去の行動シーケンスに基づいて最終報酬を予測する。
- 探索と活用のバランスを保った木探索を通じて期待報酬を最大化するため、モンテカルロ計画を用いる。
- 親ネットワークから子ネットワークを初期化することで、Net2Netの知識移譲を適用し、子ネットワークの学習を高速化する。
- 19のアクションが含まれる探索空間:さまざまなカーネルサイズとフィルタ数を有する畳み込み層、プーリング層、全結合層。
- 1GPUデイの時間予算を設定し、この制約下で性能を最大化するようにハイパーパrameterを調整する。
実験結果
リサーチクエスチョン
- RQ1UCTベースのモンテカルロ計画アプローチは、1GPUデイの制限時間内に競争力のあるニューラルネットワークアーキテクチャを発見できるか?
- RQ2類似したアーキテクチャ間での情報共有は、探索の効率性と性能にどのように寄与するか?
- RQ3提案手法は、厳密な時間制約およびハードウェア制約下で、既存の自動化および人間が設計したアーキテクチャを上回ることができるか?
- RQ4探索予算を5GPUデイに増加させた場合、性能とアーキテクチャの多様性にどのような影響が生じるか?
主な発見
- 本手法は、1GPUデイの制限時間内にCIFAR-10で91.2%のテスト精度を達成し、同じ時間予算下での競合他社を上回った。
- 5日間の探索予算を設けた場合、93.55%のテスト精度を達成するネットワークを発見し、人間が設計したおよび自動化されたベースラインを上回った。
- 本手法が発見した上位5つのアーキテクチャの平均テスト精度は90.80%で、標準偏差が1.10%と低く、高い一貫性を示した。
- 一方、MetaQNNは93.08%の精度に到達するまでに100日以上を要し、50GPUデイ経過後も27のネットワークしか評価されておらず、大多数はランダムにサンプリングされたものであった。
- Neural Architecture SearchおよびLarge-Scale Evolutionは、それぞれ800回以上のモデル評価と数か月にわたる計算時間を要して、ランダム探索を上回った。
- 本手法では深さ7のアーキテクチャへの収束が観察されたことから、より深いネットワークを優遇するためのアーキテクチャ制約を導入し、性能向上を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。