Skip to main content
QUICK REVIEW

[論文レビュー] NAS evaluation is frustratingly hard

Antoine Yang, Pedro M. Esperança|arXiv (Cornell University)|Dec 28, 2019
Molecular Biology Techniques and Applications参考文献 30被引用数 110
ひとこと要約

この論文は8つのNAS手法を5データセットでベンチマークし、ランダムなアーキテクチャに対する相対的改善指標を導入して探索性能をトレーニングプロトコルと空間設計から分離し、多くの手法が平均的なアーキテクチャベースラインとほとんど改善を提供せず、トレーニングプロトコルが最終的な精度を支配することが多いと結論付けている。

ABSTRACT

Neural Architecture Search (NAS) is an exciting new field which promises to be as much as a game-changer as Convolutional Neural Networks were in 2012. Despite many great works leading to substantial improvements on a variety of tasks, comparison between different methods is still very much an open issue. While most algorithms are tested on the same datasets, there is no shared experimental protocol followed by all. As such, and due to the under-use of ablation studies, there is a lack of clarity regarding why certain methods are more effective than others. Our first contribution is a benchmark of $8$ NAS methods on $5$ datasets. To overcome the hurdle of comparing methods with different search spaces, we propose using a method's relative improvement over the randomly sampled average architecture, which effectively removes advantages arising from expertly engineered search spaces or training protocols. Surprisingly, we find that many NAS techniques struggle to significantly beat the average architecture baseline. We perform further experiments with the commonly used DARTS search space in order to understand the contribution of each component in the NAS pipeline. These experiments highlight that: (i) the use of tricks in the evaluation protocol has a predominant impact on the reported performance of architectures; (ii) the cell-based search space has a very narrow accuracy range, such that the seed has a considerable impact on architecture rankings; (iii) the hand-designed macro-structure (cells) is more important than the searched micro-structure (operations); and (iv) the depth-gap is a real phenomenon, evidenced by the change in rankings between $8$ and $20$ cell architectures. To conclude, we suggest best practices, that we hope will prove useful for the community and help mitigate current NAS pitfalls. The code used is available at https://github.com/antoyang/NAS-Benchmark.

研究の動機と目的

  • NAS探索戦略が同じ探索空間とトレーニングプロトコルを制御した場合にランダムに抽出したアーキテクチャより性能が上回るか評価する。
  • トレーニングのトリックとプロトコルがNASの性能に与える影響を定量化する。
  • 探索空間、マクロ構造、シードがアーキテクチャのランキングに与える寄与を調査する。

提案手法

  • 8つのNAS手法を5データセットでベンチマーク(DARTS, StacNAS, PDARTS, MANAS, CNAS, NSGANET, ENAS, NAO)CIFAR10, CIFAR100, SPORT8, MIT67, FLOWERS102.
  • 同じトレーニングプロトコルの下で各手法が見つけた8つのアーキテクチャとランダムに8つのアーキテクチャを比較し、相対改善RI = 100*(Acc_m - Acc_r)/Acc_rを計算する。
  • RIの基準としてそれぞれの探索空間の平均アーキテクチャを使用する。
  • CIFAR10でDARTS空間を用いた簡素なトレーニングと拡張トレーニングの比較によりトレーニングプロトコルの影響を分析する。
  • 運用のアブレーション(操作、マクロ構造、シード、セル数)を用いてDARTS探索空間を検証する。

実験結果

リサーチクエスチョン

  • RQ1NAS手法は同じ探索空間とトレーニングプロトコル内でランダムに抽出したアーキテクチャよりどれだけ改善できるか?
  • RQ2トレーニングプロトコルはアーキテクチャの選択と比べて最終精度にどのような影響を与えるか?
  • RQ3シードと深さ(セル数)はNASのアーキテクチャランキングにどのように影響するか?
  • RQ4マクロ構造(セルレベルの配線)はNASの性能における微細な操作よりも影響が大きいか?
  • RQ5探索空間の選択はデータセット全体で優れたアーキテクチャを見つける能力を制限するか?

主な発見

CIFAR-10CIFAR-100SPORT8MIT67FLOWERS102
0.320.23-0.130.100.25
0.521.200.511.190.20
-0.481.370.432.001.47
0.01-3.440.670.130.47
0.74-0.89-1.06-0.66-2.48
0.18-0.200.331.480.70
0.432.870.380.05-0.16
0.44-0.01-2.05-1.53-0.13
  • ほとんどのNAS手法はランダムサンプリングと比較して小さな改善しか提供せず、いくつかは平均的なランダムアーキテクチャ基準を下回ることもある。
  • トレーニングプロトコルの違いがアーキテクチャの選択よりも大きな精度向上をもたらすことがあり、Cutout, DropPath, AutoAugment などのトリックや長いトレーニングで顕著。
  • DARTS空間内ではランダムにサンプルされたアーキテクチャは性能が密集しており、シードとセル数がランキングに大きく影響する(最終アーキテクチャだけでなく)。
  • ネットワークのマクロ構造が最終精度における特定の操作の影響を上回る。
  • 深さのギャップ(8対20セル)はアーキテクチャのランキングを大きく変え、ウェイト共有NAS設定の不安定さを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。