[论文解读] Understanding and Robustifying Differentiable Architecture Search
本文分析了 DARTS 在许多 NAS 基准测试中失败的原因,归因于架构参数的高 Hessian 曲率,将曲率与泛化联系起来,并提出带有提前停止和内部目标正则化的鲁棒化 DARTS 变体,这些变体在多个搜索空间和任务上提高了鲁棒性。
Differentiable Architecture Search (DARTS) has attracted a lot of attention due to its simplicity and small search costs achieved by a continuous relaxation and an approximation of the resulting bi-level optimization problem. However, DARTS does not work robustly for new problems: we identify a wide range of search spaces for which DARTS yields degenerate architectures with very poor test performance. We study this failure mode and show that, while DARTS successfully minimizes validation loss, the found solutions generalize poorly when they coincide with high validation loss curvature in the architecture space. We show that by adding one of various types of regularization we can robustify DARTS to find solutions with less curvature and better generalization properties. Based on these observations, we propose several simple variations of DARTS that perform substantially more robustly in practice. Our observations are robust across five search spaces on three image classification tasks and also hold for the very different domains of disparity estimation (a dense regression task) and language modelling.
研究动机与目标
- 识别标准 DARTS 在哪些 NAS 基准测试和搜索空间中会产生退化架构,导致测试性能较差。
- 表征相对于架构参数的验证损失 Hessian 特征值与所发现架构的泛化之间的关系。
- 开发实用的 DARTS 鲁棒化方法,包括基于 Hessian 曲率的提前停止以及对内部目标的正则化,以在不同任务上提高鲁棒性。
- 在图像分类、视差估计和语言建模领域展示所提方法的鲁棒性。
- 提供可重复的实现和脚本,以便采用鲁棒 DARTS 变体。
提出的方法
- 分析跨越四个搜索空间的 12 个 NAS 基准测试,以观察 DARTS 的失败和退化架构。
- 计算相对于架构参数的验证损失 Hessian 的最大特征值,以研究曲率-泛化之间的联系。
- 提出在主导 Hessian 特征值增加时对 DARTS 进行提前停止,以避免架构空间中的尖锐极小点。
- 在 DARTS 搜索过程中通过数据增强(Cutout、ScheduledDropPath)和 L2 正则化对内部目标进行正则化,以降低 Hessian 曲率。
- 引入实用的鲁棒化方法(DARTS-ES、DARTS-ADA、RobustDARTS),在不进行过度调整的前提下提升鲁棒性。
- 在图像分类(CIFAR-10/100、SVHN)、视差估计和 Penn Treebank 语言建模上验证这些方法。
实验结果
研究问题
- RQ1是什么原因导致标准 DARTS 在不同的 NAS 基准测试中产生退化架构?
- RQ2架构参数损失景观的曲率与所发现架构的泛化之间有何关系?
- RQ3哪些简单、实用的修改可以使 DARTS 在跨任务和跨搜索空间上更加鲁棒?
主要发现
- 标准 DARTS 常在多个空间中选择被跳跃连接主导或包含有害操作的退化架构。
- 相对于架构参数的验证损失的主导 Hessian 特征值与最终架构的测试误差之间存在强相关性。
- 基于 Hessian 曲率(跟踪主导特征值)的提前停止显著提升鲁棒性并缩短搜索时间。
- 通过数据增强和增加的 L2 正则化对内部目标进行正则化可降低 Hessian 曲率,提升所找架构的泛化。
- 实用的鲁棒化方法(DARTS-ES、DARTS-ADA、RobustDARTS)在大多数基准和任务上获得的测试性能优于标准 DARTS 或随机搜索基线。
- RobustDARTS 在原始空间上仍与原始 DARTS 竞争力相当,同时在其他数据集上(例如 CIFAR-100、SVHN)超过 DARTS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。