[論文レビュー] Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters
本論文はDARTSの不安定性を建築パラメータの勾配推定を改良することで是正し、探索と再訓練のギャップを縮小し、安定した結果を得られるはるかに大きな探索空間を実現する。
DARTS is a popular algorithm for neural architecture search (NAS). Despite its great advantage in search efficiency, DARTS often suffers weak stability, which reflects in the large variation among individual trials as well as the sensitivity to the hyper-parameters of the search process. This paper owes such instability to an optimization gap between the super-network and its sub-networks, namely, improving the validation accuracy of the super-network does not necessarily lead to a higher expectation on the performance of the sampled sub-networks. Then, we point out that the gap is due to the inaccurate estimation of the architectural gradients, based on which we propose an amended estimation method. Mathematically, our method guarantees a bounded error from the true gradients while the original estimation does not. Our approach bridges the gap from two aspects, namely, amending the estimation on the architectural gradients, and unifying the hyper-parameter settings in the search and re-training stages. Experiments on CIFAR10 and ImageNet demonstrate that our approach largely improves search stability and, more importantly, enables DARTS-based approaches to explore much larger search spaces that have not been investigated before.
研究の動機と目的
- Differentiable NAS (DARTS)における不安定性の原因と、スーパーネットワークとサブネットワークの性能のギャップを特定する。
- 建築パラメータの勾配推定を改良して誤差を有界化し安定性を改善する。
- 探索と再訓練のハイパーパラメータを統一して不安定性をさらに低減する。
- より大きな探索空間でCIFAR-10とImageNetにおける安定性と性能向上を実証する。
提案手法
- 建築パラメータに対する勾配を導出し、標準DARTS勾配 (g2) における2次項の不正確さを特定する。
- 問題となる逆ヘッセ行列ベースの項を修正済み近似 g2' に置換し、ヘッセ行列 H を用い、修正係数 eta でスケールし、g2 と g2' の角度を鈍角以下に保つ。
- 修正項が真の勾配に対して有限の誤差を生むことを示す(角度 <= 90 度)。
- 第二次オーダー DARTS の計算に従い g1(標準勾配)と g2' を組み合わせて最終的な建築勾配を計算する。
- 探索と再訓練のハイパーパラメータを一貫させ、検索と再訓練間の最適化ギャップを縮小することを含む CIFAR-10 および ImageNet の実験。
実験結果
リサーチクエスチョン
- RQ1DARTS における建築勾配推定の修正は、スーパーネットワークとそのサブネットワーク間の最適化ギャップを低減できるか?
- RQ2有界誤差の改良勾配項は探索を安定化させ、より大きく複雑な NAS 空間を可能にするか?
- RQ3統一された探索-再訓練のハイパーパラメータは最終的なアーキテクチャの安定性と品質にどのように影響するか?
- RQ4改良された勾配アプローチを適用した場合、CIFAR-10 と ImageNet でどのような経験的利得があるか?
主な発見
| Architecture | Test Err. | Params | #P |
|---|---|---|---|
| Random Search † | 3.29 | 3.2 | - |
| DARTS (first-order) | 6.18 | 1.4 | 0 |
| DARTS (second-order) | 5.15 | 1.5 | 0 |
| P-DARTS | 5.38 | 1.5 | 0 |
| PC-DARTS | 3.15 | 2.4 | 3 |
| Our Approach | 2.71 | 3.3 | 7 |
| w/o amending term | 3.15 | 3.9 | 6 |
| w/o consistency | 3.08 | 3.3 | 5 |
- 建築勾配 (g2') の改良により、標準DARTS より安定した探索挙動が得られ、探索中の検証精度は CIFAR-10 で 91.5% に向上(first-order の 90.5% および second-order DARTS の 91.0% に対して)。
- eta = 0.1 のとき、手法は全スキップ接続への劣化を防ぎ、収束後も競争力のある最終アーキテクチャを生み出す。
- DARTS の派生手法および PC-DARTS と比較して、改良手法は CIFAR-10 のテスト誤差をより小さく達成(Amended-DARTS S1 で 2.71%、Amended-DARTS S2 固定エッジで 2.60%、Amended-DARTS S2 探索エッジで 2.63%)、一方で DARTS first-order は 6.18%、DARTS second-order は 5.15% である。
- より大きく複雑な探索空間(S2)を固定エッジで用いると CIFAR-10 の誤差がさらに 2.60% および 2.63% に低下し、ImageNet への転用時により大きな利得を示す。
- 長い探索実行(最大 500 エポック)後でも安定性と競争力のある精度を示し、巨大空間の探索(例:S2 の 1.9e93 アーキテクチャ)を可能にする。
- アブレーション研究では、改良項を除去したり一貫性のないハイパーパラメータを用いると性能が低下する(例:改良項なしでの誤差 3.15%、一貫性なしでの 3.08% など)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。