[論文レビュー] DARTS+: Improved Differentiable Architecture Search with Early Stopping
DARTS+ は、ワンショットモデルの過学習によって引き起こされる DARTS の崩壊を防ぐ適応的な早期停止基準を導入し、検索時間を短縮しつつ CIFAR、Tiny-ImageNet、ImageNet で最先端の結果を達成します。
Recently, there has been a growing interest in automating the process of neural architecture design, and the Differentiable Architecture Search (DARTS) method makes the process available within a few GPU days. However, the performance of DARTS is often observed to collapse when the number of search epochs becomes large. Meanwhile, lots of "{\em skip-connect}s" are found in the selected architectures. In this paper, we claim that the cause of the collapse is that there exists overfitting in the optimization of DARTS. Therefore, we propose a simple and effective algorithm, named "DARTS+", to avoid the collapse and improve the original DARTS, by "early stopping" the search procedure when meeting a certain criterion. We also conduct comprehensive experiments on benchmark datasets and different search spaces and show the effectiveness of our DARTS+ algorithm, and DARTS+ achieves $2.32\%$ test error on CIFAR10, $14.87\%$ on CIFAR100, and $23.7\%$ on ImageNet. We further remark that the idea of "early stopping" is implicitly included in some existing DARTS variants by manually setting a small number of search epochs, while we give an {\em explicit} criterion for "early stopping".
研究の動機と目的
- 検索エポックが増えるにつれて skip-connect が増殖するDARTSの崩壊を動機づけ、診断する。
- 崩壊を防ぐための単純な停止基準を備えた早期停止戦略(DARTS+)の提案。
- CIFAR、Tiny-ImageNet、ImageNet を含む複数の検索空間とデータセットで DARTS+ を実証的に検証。
- ベースラインの DARTS および関連手法と比較して、テスト性能の改善と検索時間の短縮を示す。
提案手法
- DARTS における崩壊現象を分析し、ワンショットモデルの過学習を根本原因として特定。
- 飽和点に達したときに探索を停止する早期停止パラダイム(DARTS+)を導入。
- 2つの停止基準を提供:基準1はノーマルセル中の skip-connect の数に基づく;基準2は数エポックにわたる学習可能な操作パラメータのランク安定性に基づく。
- 複数の検索空間(DARTS space、MobileNetV2、ResNet)とデータセットにわたり、DARTS+ を DARTS および他の NAS 手法と経験的に比較。
- 早期停止が skip-connect を減らしたアーキテクチャとより良い汎化性能を生み出し、検索コストを削減することを示す。
実験結果
リサーチクエスチョン
- RQ1検索エポックが増えるときに DARTS が崩壊する原因は何であり、それがワンショットモデルの過学習とどう関連しているか?
- RQ2明示的な早期停止基準は崩壊を防ぎつつ、アーキテクチャの品質を維持または向上させることができるか?
- RQ3異なる検索空間とデータセットで、DARTS+ はベースラインの DARTS および他の NAS 手法と比較してどう機能するか?
- RQ4早期停止を適用した場合の検索コストと最終アーキテクチャの性能のトレードオフは何か?
- RQ5早期停止されたアーキテクチャは ImageNet のようなより大規模データセットに良く転移するか?
主な発見
- DARTS+ は CIFAR10 (2.32%) および CIFAR100 (14.87%) で競争力のあるまたはより優れたテスト誤差を達成し、検索時間を大幅に削減(例:CIFAR10 で 0.4 GPU days)。
- 早期停止は skip-connect の数を抑制し、素の DARTS で観察される崩壊を防ぐ。
- Tiny-ImageNet-200 では DARTS+ が 28.3% テスト誤差(Criterion 1)および 27.6%(Criterion 2)を獲得;ImageNet では DARTS+ で直接探索すると top-1 23.9%、top-5 7.4% の誤差、CIFAR100-to-ImageNet 転送で 23.7%/7.2%。
- DARTS+ は enhanced augmentations とより大きなチャネルを用いた CIFAR10/100 で、それぞれ 1.68% と 13.03% のテスト誤差を達成(large variant)。
- 早期停止基準は単純で効果的、他の NAS のコツと直交しており、過学習を回避しつつ検索コストを削減。
- DARTS+ は強い転移性を示し、複数のベンチマークで最先端結果に匹敵または上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。