QUICK REVIEW

[論文レビュー] DSNAS: Direct Neural Architecture Search without Parameter Retraining

Shoukang Hu, Sirui Xie|arXiv (Cornell University)|Feb 21, 2020

Advanced Neural Network Applications参考文献 30被引用数 26

ひとこと要約

DSNASは、1つの学習段階でアーキテクチャとパラメータを同時に最適化する直接的ニューラルアーキテクチャ探索フレームワークを提案する。再訓練の必要がなくなる。微分可能探索における低バイアスのモンテカルロ推定を用いることで、DSNASは420 GPU時間でImageNetで74.4%のトップ1精度を達成した。これは最先端の手法と同等の性能であり、合計計算時間は34%以上短く、再訓練なしに直接利用可能なモデルを生成する。

ABSTRACT

If NAS methods are solutions, what is the problem? Most existing NAS methods require two-stage parameter optimization. However, performance of the same architecture in the two stages correlates poorly. In this work, we propose a new problem definition for NAS, task-specific end-to-end, based on this observation. We argue that given a computer vision task for which a NAS method is expected, this definition can reduce the vaguely-defined NAS evaluation to i) accuracy of this task and ii) the total computation consumed to finally obtain a model with satisfying accuracy. Seeing that most existing methods do not solve this problem directly, we propose DSNAS, an efficient differentiable NAS framework that simultaneously optimizes architecture and parameters with a low-biased Monte Carlo estimate. Child networks derived from DSNAS can be deployed directly without parameter retraining. Comparing with two-stage methods, DSNAS successfully discovers networks with comparable accuracy (74.4%) on ImageNet in 420 GPU hours, reducing the total time by more than 34%. Our implementation is available at https://github.com/SNAS-Series/SNAS-Series.

研究の動機と目的

2段階NAS手法の非効率さと一般化性能の低さに起因する、アーキテクチャ探索後に別途再訓練を要する問題を解決すること。
NASをタスク固有のエンドツーエンド最適化問題として再定義し、アーキテクチャとパラメータを同時に学習させ、即座にデプロイ可能なモデルを生成すること。
異なる学習設定による探索段階と再訓練段階の間の性能ギャップを解消すること。
SNAS や ProxylessNAS などの先行手法に比べ、メモリおよび計算コストの高いオーバーヘッドを回避する微分可能NASフレームワークの開発

提案手法

DSNASは、1つのバックプロパゲーションループ内でアーキテクチャとネットワークパラメータを同時に最適化する微分可能探索戦略を導入する。
離散的アーキテクチャ選択の勾配を近似するために、低バイアスのモンテカルロ推定器を採用し、最適化プロセスにおける分散とバイアスを低減する。
SNASとは異なり、トレーニング中に親ネットワークを完全に保持しないため、メモリ使用量を顕著に削減する。
プロキシモデルや複数のトレーニングフェーズを必要とせず、単一パスのサンプリングメカニズムを用いて、子ネットワークを効率的にサンプリング・トレーニングする。
アーキテクチャ探索はターゲットタスク上でエンドツーエンドに実行され、別々の再訓練段階が存在しない。
導出されたサブネットワークを追加のパラメータチューニングなしに直接デプロイ可能とする

Figure 1: Projecting from the architecture space $\mathcal{A}$ to the network space $\mathcal{N}(\theta)$ with different parameter training schemes in searching and retraining results in accuracy with low correlation.

実験結果

リサーチクエスチョン

RQ1微分可能NASフレームワークは、アーキテクチャ探索後に別途再訓練を要さずに高い性能を達成できるか？
RQ2探索時と再訓練時の精度の相関関係は、2段階NAS手法の妥当性にどのように影響するか？
RQ31段階のエンドツーエンドNASフレームワークは、既存の2段階およびワンショット手法に比べ、精度と合計計算コストの両面で優れているか？
RQ4勾配推定のバイアスと分散は、微分可能NASの効率性と安定性にどのような影響を与えるか？
RQ5高い探索精度を維持しつつ、微分可能NASにおけるメモリおよび計算コストのオーバーヘッドをどのように最小化できるか？

主な発見

DSNASは、420 GPU時間でImageNetで74.4%のトップ1精度を達成し、2段階手法と比較して合計時間の34%以上を削減した。
フレームワークは再訓練なしに直接利用可能なモデルを発見し、別段の評価フェーズの必要性を排除した。
DSNASはSNASの5倍、ProxylessNASの2倍速く、1エポックあたりのトレーニング時間が短く、顕著に低いメモリ消費量を示した。
最終モデルの性能は探索時の性能と強く相関しており、エンドツーエンドアプローチの有効性が裏付けられた。
一様事前分布でさえ74.3%のトップ1精度を維持しており、事前分布の選択に対して高いロバストネスを示した。
324M FLOPSで競争力のある結果を達成し、MobileNet や ShuffleNet と同等の性能を示したが、完全に自動化されエンドツーエンドである。

Figure 2: Forward and backward on SNAS, ProxylessNAS and DSNAS. Blue lumps stand for feature maps, orange ones for operation candidates. Blue arrow lines indicate forward data flows, purple dashed lines indicate backward ones. Semi-transparent lumps stand for parent networks that are not instantiate

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。