[論文レビュー] Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective
TE-NAS はニューラル・タンジェント・カーネル・スペクトラムと線形領域の数でアーキテクチャをランキングし、剪定ベースの探索戦略を組み合わせることで、トレーニングを必要としない NAS を実現し、コストを大幅に削減しつつ競争力のある NAS 結果を達成します。
Neural Architecture Search (NAS) has been explosively studied to automate the discovery of top-performer neural networks. Current works require heavy training of supernet or intensive architecture evaluations, thus suffering from heavy resource consumption and often incurring search bias due to truncated training or approximations. Can we select the best neural architectures without involving any training and eliminate a drastic portion of the search cost? We provide an affirmative answer, by proposing a novel framework called training-free neural architecture search (TE-NAS). TE-NAS ranks architectures by analyzing the spectrum of the neural tangent kernel (NTK) and the number of linear regions in the input space. Both are motivated by recent theory advances in deep networks and can be computed without any training and any label. We show that: (1) these two measurements imply the trainability and expressivity of a neural network; (2) they strongly correlate with the network's test accuracy. Further on, we design a pruning-based NAS mechanism to achieve a more flexible and superior trade-off between the trainability and expressivity during the search. In NAS-Bench-201 and DARTS search spaces, TE-NAS completes high-quality search but only costs 0.5 and 4 GPU hours with one 1080Ti on CIFAR-10 and ImageNet, respectively. We hope our work inspires more attempts in bridging the theoretical findings of deep networks and practical impacts in real NAS applications. Code is available at: https://github.com/VITA-Group/TENAS.
研究の動機と目的
- NAS のコストを削減する動機づけとして、トレーニングを排除し、トレーニング可能性と表現力の理論的指標を活用する。
- トレーニング不要の指標(NTK スペクトラムと線形領域)を特訓なしで測定し、テスト精度と相関を見いだす。
- トレーニング不要の剪定ベース NAS ワークフローを開発し、訓練可能性と表現力のバランスを取りつつ効率的にアーキテクチャを探索する。
- NAS-Bench-201、CIFAR-10(DARTS スペース)、ImageNet(DARTS スペース)で TE-NAS の有効性を示す。
提案手法
- 2 つの指標に基づくトレーニング不要 NAS フレームワーク TE-NAS を提案する:トレーニング可能性を反映する NTK 条数(kappa_N)と表現力を反映する線形領域の数(R_N)。
- トレーニングやラベルを用いずに kappa_N と R_N を測定し、それらがテスト精度と経験的に相関することを示す。
- 等重みの相対ランキングを用いてこの 2 指標を組み合わせ、アーキテクチャ選択を指針する。
- 重要度による剪定メカニズムを導入し、超ネットワークを段階的に単一路線アーキテクチャへと縮小して探索を加速する。
- NAS-Bench-201 および DARTS スペース、CIFAR-10 および ImageNet に対して、トレーニング不要な探索コストで TE-NAS を検証する。
実験結果
リサーチクエスチョン
- RQ1トレーニング不要・ラベル不要の指標(NTK スペクトラムと線形領域の数)は、最終的なテスト精度によって NAS アーキテクチャを効果的にランク付けできるか?
- RQ2剪定ベースのトレーニング不要 NAS ワークフローは、トレーニングを要する NAS 手法と比較してコストの大幅な削減で競争力のあるアーキテクチャを生み出すか?
- RQ3トレーニング可能性(kappa_N)と表現力(R_N)は、異なる探索空間における NAS の演算子選択にどのような影響を与えるか?
- RQ4CIFAR-10 および ImageNet のタスクに TE-NAS を適用する際の実務的な探索時間の節約と性能のトレードオフはどのようになるか?
主な発見
- トレーニング不要の指標が性能と相関する:低い NTK 条件数 kappa_N(トレーニング可能性)と高い線形領域の数 R_N(表現力)は、テスト精度と相関する。
- TE-NAS は探索時間を大幅に削減しつつ競争力のある NAS 結果を達成:CIFAR-10 で 0.5 GPU 時間、ImageNet で 4 GPU 時間(1 台の 1080Ti を使用)で達成。
- NAS-Bench-201 では、トレーニング不要な探索の下で CIFAR-10、CIFAR-100、ImageNet-16-120 の報告された手法の中で最高精度を達成(平均と標準偏差を報告)。
- DARTS スペースを用いた CIFAR-10 で、TE-NAS は 0.05 GPU-days の探索コスト(トレーニング不要)で 2.63% のテストエラーを達成。
- モバイル設定の ImageNet で DARTS スペースを用いた場合、TE-NAS は 0.17 GPU-days の探索コスト(トレーニング不要)で top-1 24.5%、top-5 7.5% を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。