[论文解读] DARTS+: Improved Differentiable Architecture Search with Early Stopping
DARTS+ 引入了一个自适应的提前停止准则,以防止 DARTS 因对一次性模型过拟合而崩溃,在 CIFAR、Tiny-ImageNet 和 ImageNet 上实现了最先进的结果,同时降低搜索时间。
Recently, there has been a growing interest in automating the process of neural architecture design, and the Differentiable Architecture Search (DARTS) method makes the process available within a few GPU days. However, the performance of DARTS is often observed to collapse when the number of search epochs becomes large. Meanwhile, lots of "{\em skip-connect}s" are found in the selected architectures. In this paper, we claim that the cause of the collapse is that there exists overfitting in the optimization of DARTS. Therefore, we propose a simple and effective algorithm, named "DARTS+", to avoid the collapse and improve the original DARTS, by "early stopping" the search procedure when meeting a certain criterion. We also conduct comprehensive experiments on benchmark datasets and different search spaces and show the effectiveness of our DARTS+ algorithm, and DARTS+ achieves $2.32\%$ test error on CIFAR10, $14.87\%$ on CIFAR100, and $23.7\%$ on ImageNet. We further remark that the idea of "early stopping" is implicitly included in some existing DARTS variants by manually setting a small number of search epochs, while we give an {\em explicit} criterion for "early stopping".
研究动机与目标
- 动机并诊断当搜索轮次增加时 skip-connects 增殖导致的 DARTS 崩溃。
- 提出一种早停策略 (DARTS+) ,具有简单的停止准则以防止崩溃。
- 在包括 CIFAR、Tiny-ImageNet 和 ImageNet 的多个搜索空间和数据集上对 DARTS+ 进行实证验证。
- 展示相比基线 DARTS 及相关方法,在测试性能提升和搜索时间缩短方面的结果。
提出的方法
- 分析 DARTS 的崩溃现象,并将对一次性模型的过拟合确认为根本原因。
- 引入一种早停范式 (DARTS+) ,在达到饱和点时停止搜索。
- 提供两个停止准则:准则1 基于正常单元中 skip-connect 的数量;准则2 基于在若干个 epoch 内可学习操作参数排序的稳定性。
- 在多个搜索空间(DARTS 空间、MobileNetV2、ResNet)和数据集上对 DARTS+ 与 DARTS 及其他 NAS 方法进行实证比较。
- 证明早停可以产生具有更少 skip-connect 且具有更好泛化能力的结构,同时降低搜索成本。
实验结果
研究问题
- RQ1当搜索轮次增加时,是什么导致 DARTS 崩溃,以及它与对一次性模型的过拟合有何关系?
- RQ2是否存在一个明确的早停准则在防止崩溃的同时保持或提升架构质量?
- RQ3与基线 DARTS 及其他 NAS 方法相比,DARTS+ 在不同搜索空间和数据集上的表现如何?
- RQ4应用早停时,搜索成本与最终架构性能的权衡是什么?
- RQ5早停得到的架构是否能很好地迁移到更大数据集,如 ImageNet?
主要发现
- DARTS+ 在 CIFAR10 (2.32%) 和 CIFAR100 (14.87%) 上实现了具竞争力或更优的测试误差,同时显著降低了搜索时间(例如在 CIFAR10 上为 0.4 GPU days)。
- 早停使 skip-connect 的数量保持在合理范围,防止了 vanilla DARTS 中观察到的崩溃。
- 在 Tiny-ImageNet-200 上,DARTS+ 达到 28.3% 测试误差(Criterion 1)和 27.6%(Criterion 2);在 ImageNet 上,直接搜索使用 DARTS+ 的 top-1 误差为 23.9%,top-5 误差为 7.4%,CIFAR100-to-ImageNet 转移给出 23.7%/7.2%。
- 在 CIFAR10/100 的 DARTS+ 配置中,使用增强的增强和更大的通道,测试误差分别达到 1.68% 和 13.03%(大版本)。
- 早停准则简单、有效,并且与其他 NAS 技巧正交,在降低搜索成本的同时避免过拟合。
- DARTS+ 展现出强大的迁移性,在多个基准上达到或超过最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。