[論文レビュー] Stabilizing Differentiable Architecture Search via Perturbation-based Regularization
SDARTSは摂動ベースの正則化(ランダム平滑化と敵対的手法)を導入してDARTSを安定化させ、Hessianノルムを低減し、空間とデータセットを跨いだNASの性能を改善します。
Differentiable architecture search (DARTS) is a prevailing NAS solution to identify architectures. Based on the continuous relaxation of the architecture space, DARTS learns a differentiable architecture weight and largely reduces the search cost. However, its stability has been challenged for yielding deteriorating architectures as the search proceeds. We find that the precipitous validation loss landscape, which leads to a dramatic performance drop when distilling the final architecture, is an essential factor that causes instability. Based on this observation, we propose a perturbation-based regularization - SmoothDARTS (SDARTS), to smooth the loss landscape and improve the generalizability of DARTS-based methods. In particular, our new formulations stabilize DARTS-based methods by either random smoothing or adversarial attack. The search trajectory on NAS-Bench-1Shot1 demonstrates the effectiveness of our approach and due to the improved stability, we achieve performance gain across various search spaces on 4 datasets. Furthermore, we mathematically show that SDARTS implicitly regularizes the Hessian norm of the validation loss, which accounts for a smoother loss landscape and improved performance.
研究の動機と目的
- DARTSにおける鋭い検証損失の景観と離散的な射影による不安定性を動機づける。
- SDARTSをランダム平滑化(SDARTS-RS)と敵対的(SDARTS-ADV)形式で提案し、損失景観を平滑化する。
- SDARTSが検証損失のヘッセ行列を暗黙的に正則化して安定性と一般化を高めることを示す。
- 複数の探索空間にわたりCIFAR-10、ImageNet、Penn TreebankでSDARTSの性能改善を示す。
提案手法
- 現在のアーキテクチャ重みの最小化を近傍ベースの目的に置き換える:アーキテクチャ重みの摺動に対する訓練損失を最小化する。
- SDARTS-RS: w̄(A) = argmin_w E_{δ ~ U([-ε, ε])} L_train(w, A+δ).
- SDARTS-ADV: w̄(A) = argmin_w max_{||δ|| ≤ ε} L_train(w, A+δ).
- Aを∇_A L_val(w̄(A), A)を降下させることで更新する。
- 摂動δはランダムに、または敵対的なPGD手順(最小-最大最適化)で計算する。
- どちらの変種もAに対して滑らかなL_valを実現することを目指し、安定性と一般化を向上させる。
実験結果
リサーチクエスチョン
- RQ1摂動ベースの正則化はシャープな損失景観と射影の不安定性に対して微分可能なアーキテクチャ探索を安定化できるか?
- RQ2ランダム平滑化と敵対的摂動はNASにおいて損失景観を平滑化し、一般化を向上させるか?
- RQ3SDARTSによって検証損失のヘッセ行列ノルムが暗黙的に正則化され、性能向上を説明できるか?
- RQ4SDARTSの変種はDARTSおよび他のベースラインと比較してCIFAR-10、ImageNet、PTB空間でロバスト性と結果を改善するか?
主な発見
- SDARTS-RSとSDARTS-ADVは、元のDARTSと比較して検証損失の景観を滑らかにし、アーキテクチャ重みの摂動に対する敏感性を低減する。
- 両方のSDARTS変種は訓練中の検証損失のヘッセ行列ノルム(スペクトルノルム)を低減し、安定性の向上と相関する。
- SDARTS-RSとSDARTS-ADVはCIFAR-10、CIFAR-100、SVHN、PTBベンチマークでDARTSおよびいくつかの正則化ベースラインを上回る。
- PC-DARTSおよびP-DARTSへの適用は一貫した性能向上をもたらし、ImageNet転移での結果も競合的である。
- SDARTS-ADVはしばしば最良のいつでもの性能を達成し、探索エポックが典型的なDARTS訓練を超えて延長されても改善を続ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。