QUICK REVIEW

[論文レビュー] ZiCo: Zero-shot NAS via Inverse Coefficient of Variation on Gradients

Guihong Li, Yuedong Yang|arXiv (Cornell University)|Jan 26, 2023

Advanced Neural Network Applications被引用数 19

ひとこと要約

ZiCoは、サンプル間の勾配の平均と分散に基づく訓練不要のゼロショット NAS proxyを提案し、複数のNASベンチマークで #Params より一貫してテスト精度との相関が高く、非常に少ない探索時間で競争力の結果を実現する。

ABSTRACT

Neural Architecture Search (NAS) is widely used to automatically obtain the neural network with the best performance among a large number of candidate architectures. To reduce the search time, zero-shot NAS aims at designing training-free proxies that can predict the test performance of a given architecture. However, as shown recently, none of the zero-shot proxies proposed to date can actually work consistently better than a naive proxy, namely, the number of network parameters (#Params). To improve this state of affairs, as the main theoretical contribution, we first reveal how some specific gradient properties across different samples impact the convergence rate and generalization capacity of neural networks. Based on this theoretical analysis, we propose a new zero-shot proxy, ZiCo, the first proxy that works consistently better than #Params. We demonstrate that ZiCo works better than State-Of-The-Art (SOTA) proxies on several popular NAS-Benchmarks (NASBench101, NATSBench-SSS/TSS, TransNASBench-101) for multiple applications (e.g., image classification/reconstruction and pixel-level prediction). Finally, we demonstrate that the optimal architectures found via ZiCo are as competitive as the ones found by one-shot and multi-shot NAS methods, but with much less search time. For example, ZiCo-based NAS can find optimal architectures with 78.1%, 79.4%, and 80.4% test accuracy under inference budgets of 450M, 600M, and 1000M FLOPs, respectively, on ImageNet within 0.4 GPU days. Our code is available at https://github.com/SLDGroup/ZiCo.

研究の動機と目的

NASで訓練不要プロキシの必要性を動機づけ、以前のゼロショットプロキシと #Params の間の不整合を解決する。
勾配の平均と分散が収束と汎化にどう影響するかを理論的に分析する。
勾配統計を活用して既存のプロキシよりも優れた性能を発揮するZiCoを、ゼロショットプロキシとして開発する。
ZiCoの有効性をNASベンチマークおよびImageNetスケールの検索で、探索時間を短縮して示す。

提案手法

著者らは、サンプル間の勾配の平均と標準偏差が訓練の収束と汎化にどう影響するかを、線形回帰設定から始めてReLU-MLPへ拡張して分析する。
サンプル間の勾配平均の絶対値が大きいほど収束を加速し、勾配分散が小さいほど汎化を改善することを証明し、これをGram行列の固有値と結びつける。
ZiCoは、初期パラメータの各層ごとに、学習なしで2つのバッチ（N=2）を用いて計算される、勾配の平均の期待値と勾配の大きさの標準偏差の比を対数形で合計するゼロショットプロキシとして定義される。
ZiCo指標はCNNに対してアーキテクチャ非依存で、初期パラメータのみに依存し、ゼロショット評価を保証する。
彼らは ZiCo が NASBench101、NATS-Bench-SSS/TSS、および TransNASBench-101 で他のゼロショットプロキシや #Params よりテスト精度との相関が高いことを示している。

実験結果

リサーチクエスチョン

RQ1勾配平均と勾配分散が訓練サンプル間で、NAS性能の理論的に根拠のあるゼロショットプロキシとして機能し得るか？
RQ2勾配統計に基づくゼロショットプロキシは、さまざまなNASトポロジーとタスクにおいて、素の #Params プロキシを一貫して上回るか？
RQ3ZiCo は、最小の探索コストでさまざまな FLOPs 予算下で競合するテスト精度を予測できるか？
RQ4ImageNet のような大規模タスクで、一回-shot やマルチショットNASと比較して ZiCo の性能はどうか？

主な発見

ZiCoは NASBench101 および NATS-Bench の空間で、複数のデータセットにわたり既存のプロキシ（#Params を含む）よりテスト精度との相関が高い。
ZiCoベースのゼロショットNASは、ImageNet の 450M–1000M FLOPs 予算下で、最先端のNAS手法と競合するTop-1精度を達成し、探索コストは顕著に低い（約0.4 GPU日程度）。
2つの訓練バッチで高い信頼性を持って ZiCo を計算でき、候補アーキテクチャの高速評価を可能にする。
ZiCo はワンショットおよびマルチショットNASと比較して競争力のあるFLOPs-精度のトレードオフを見つけるNASを可能にし、はるかに少ない訓練時間を要する。
経験的アブレーションは、ZiCo計算のバッチ数を増やしても相関を改善しないことを示唆し、64のバッチサイズが指標を安定化させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。