[论文解读] Rethinking Architecture Selection in Differentiable NAS
本文认为在可微分 NAS 中传统基于幅度的选择 α 可能具有误导性,并引入基于扰动的架构选择 PT,评估每个操作对超网性能的贡献,从而得到更稳定的架构并缓解 DARTS 的鲁棒性问题。
Differentiable Neural Architecture Search is one of the most popular Neural Architecture Search (NAS) methods for its search efficiency and simplicity, accomplished by jointly optimizing the model weight and architecture parameters in a weight-sharing supernet via gradient-based algorithms. At the end of the search phase, the operations with the largest architecture parameters will be selected to form the final architecture, with the implicit assumption that the values of architecture parameters reflect the operation strength. While much has been discussed about the supernet's optimization, the architecture selection process has received little attention. We provide empirical and theoretical analysis to show that the magnitude of architecture parameters does not necessarily indicate how much the operation contributes to the supernet's performance. We propose an alternative perturbation-based architecture selection that directly measures each operation's influence on the supernet. We re-evaluate several differentiable NAS methods with the proposed architecture selection and find that it is able to extract significantly improved architectures from the underlying supernets consistently. Furthermore, we find that several failure modes of DARTS can be greatly alleviated with the proposed selection method, indicating that much of the poor generalization observed in DARTS can be attributed to the failure of magnitude-based architecture selection rather than entirely the optimization of its supernet.
研究动机与目标
- 评估在可微 NAS 中架构参数幅值是否能反映每个操作的强度。
- 分析基于幅值的选择的失败模式(例如跳连路由的支配)。
- 提出并评估基于扰动的架构选择(PT),衡量每个操作对超网性能的影响。
- 在 DARTS、SDARTS 和 SGAS 以及 NAS-Bench-201 上证明 PT 的有效性。
提出的方法
- 将操作强度定义为收敛时的离散化精度,并证明它可能与 α 不一致。
- 提出基于扰动的强度量:在边上移除每个操作并衡量对验证准确率的影响。
- 开发算法 1(基于扰动的架构选择),对边进行迭代,通过 ACC 下降来选择最佳操作,进行离散化并微调。
- 可选地通过移除每个操作并观察 ACC 下降来衡量操作的重要性,以降低计算量。
- 在 DARTS、SDARTS(rs) 和 SGAS 的预训练超网上应用基于扰动的选择以推导最终架构。
- 证明在无 α 训练(均匀 α)结合 PT 时,可以达到或超过传统 DARTS 的性能。
实验结果
研究问题
- RQ1架构参数 α 的幅值是否可靠地指示每个操作的贡献?
- RQ2扰动基准是否能更好地识别强操作并在可微分 NAS 变体中稳定架构选择?
- RQ3PT 如何影响 DARTS 及其变体在多个搜索空间中的鲁棒性问题?
- RQ4将 PT 应用于 CIFAR-10 和 NAS-Bench-201 与传统幅值基选择相比,其性能影响如何?
主要发现
- 基于扰动的选择在 DARTS、SDARTS(rs) 和 SGAS 中始终能得到比基于幅值的选择更好的架构。
- DARTS+PT 将 CIFAR-10 的测试误差从 3.00%(DARTS)提升到 2.61%(平均值)和 2.48%(最佳值)。
- SDARTS-RS+PT 在 CIFAR-10 上提升至 2.54%(平均)和 2.44%(最佳)。
- 在 NAS-Bench-201 上,DARTS 基线报告测试误差为 45.7%,而 DARTS+PT 在 11.89%(平均)和 6.20%(带固定 α 的 PT)下实现。
- DARTS+PT 能在 DARTS 陷入退化的空间(如 Zela 等 2020 的 S2、S4)中提取有意义的架构。
- 在使用 PT 时将 α 固定为均匀权重,并非总需要,某些空间中可获得与 PT 同等或更好结果,提示在引入 PT 时 α 可能并非必要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。