QUICK REVIEW

[論文レビュー] DARTS: Differentiable Architecture Search

Hanxiao Liu, Karen Simonyan|arXiv (Cornell University)|Jun 24, 2018

Machine Learning in Bioinformatics被引用数 1,401

ひとこと要約

DARTSは、離散的検索空間を連続空間に緩和することによりニューラルネットワークのアーキテクチャを勾配ベースで検索する differentiable な方法を導入し、畳み込みネットワークと再帰ネットワークの両方のアーキテクチャ発見を効率化します。

ABSTRACT

This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.

研究の動機と目的

高価な RL/進化法を超えるスケーラブルなアーキテクチャ検索を動機付ける。
アーキテクチャと重みを共同で学習する differentiable なビilevel 最適化フレームワークを提案する。
勾配ベースの探索が CIFAR-10 と PTB で競合または優れた性能を、はるかに低い計算コストで達成することを示す。
学習したセルの ImageNet と WikiText-2 への転移性を実証する。

提案手法

アーキテクチャをエッジに候補操作を割り当てた有向非巡回グラフセルとして表現する。
操作の離散選択を操作の重み付き softmax に置き換える連続緩和を適用し、アーキテクチャパラメータ alpha でパラメータ化する。
ビレベル最適化を定式化する：alpha に対する検証損失を最小化しつつ、alpha が与えられたトレーニング損失の下で重み w をトレーニングする。
近似的なアーキテクチャ勾配をワンステップのアンロール最適化で用いる：nabla_alpha L_val(w', alpha) ただし w' = w - xi nabla_w L_train(w, alpha)。
二次コストを削減するため勾配を計算するときに有限差分ベースの近似を用いる。
最終的な離散アーキテクチャを、ノードごとに上位 k 個の最も強い操作を維持して得る（畳み込みは k=2、再帰は k=1）、比較の公正性のためゼロを除外する。

実験結果

リサーチクエスチョン

RQ1CNN と RNN の両方の分野で勾配ベースの探索が差分可能な緩和を用いてニューラルアーキテクチャの探索を可能にするか。
RQ2勾配ベースのアーキテクチャ検索は非微分 NAS 手法と同等かそれを上回る性能を、探索計算コストを大幅に削減して達成できるか。
RQ3CIFAR-10/PTB で見つかったアーキテクチャは ImageNet や WikiText-2 のような大規模データセットに転移可能か。

主な発見

DARTS は 3.3M パラメータで CIFAR-10 のテスト誤差 2.76 ± 0.09% を達成し、検索に 1.5 GPU 日（またはいくつかの設定で 4 GPU 日）の計算量で、数桁の大規模な計算を要する最先端手法と競合する。
Penn Treebank では、学習された再帰セルが 55.7 のテストパープレキシティを達成し、同様の制約下で広く調整された LSTM や他の NAS 手法を上回る。
転移実験では CIFAR-10 学習セルが ImageNet（モバイル設定）へ転移し top-1 誤差 26.7%、8.7M パラメータを達成し、PTB由来の再帰セルは WikiText-2 へ転移する。
DARTS は同等のリソースで ENAS を上回り、PTB で最先端結果と同等以上を達成する一方、RL/進化ベース NAS 手法よりはるかに低い探索コストを要する。
本論文は強力な効率性を強調しており、評価されたアーキテクチャについては4つの探索実行で合計約1 GPU日であり、ランダム検索は探索空間で競合するものの、DARTS が大きな利得を生むと指摘している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。