[论文解读] Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters
本文通过修改架构参数的梯度估计来修复 DARTS 的不稳定性,缩小搜索与再训练之间的差距,并在实现稳定结果的同时支持更大规模的搜索空间。
DARTS is a popular algorithm for neural architecture search (NAS). Despite its great advantage in search efficiency, DARTS often suffers weak stability, which reflects in the large variation among individual trials as well as the sensitivity to the hyper-parameters of the search process. This paper owes such instability to an optimization gap between the super-network and its sub-networks, namely, improving the validation accuracy of the super-network does not necessarily lead to a higher expectation on the performance of the sampled sub-networks. Then, we point out that the gap is due to the inaccurate estimation of the architectural gradients, based on which we propose an amended estimation method. Mathematically, our method guarantees a bounded error from the true gradients while the original estimation does not. Our approach bridges the gap from two aspects, namely, amending the estimation on the architectural gradients, and unifying the hyper-parameter settings in the search and re-training stages. Experiments on CIFAR10 and ImageNet demonstrate that our approach largely improves search stability and, more importantly, enables DARTS-based approaches to explore much larger search spaces that have not been investigated before.
研究动机与目标
- 识别可微分 NAS(DARTS)不稳定性的原因以及超网络验证与子网络性能之间的差距。
- 提出对架构参数的修订梯度估计,以保证误差有界并提升稳定性。
- 统一搜索与再训练的超参数以进一步降低不稳定性。
- 在 CIFAR-10 和 ImageNet 上展示在更大搜索空间中的稳定性和性能提升。
提出的方法
- 推导相对于架构参数的梯度,并识别标准 DARTS 梯度中的不准确二阶项(g2)。
- 用一个改进的近似 g2' 替换基于逆 Hessian 的有问题项,该近似使用 Hessian H,但由修正系数 eta 缩放,确保 g2 与 g2' 之间的夹角非钝角。
- 证明该修订项相对于真实梯度具有有界误差(夹角 <= 90 度)。
- 按照二阶 DARTS 的计算,将 g1(标准)与 g2' 结合,得到最终的架构梯度。
- 在 CIFAR-10 和 ImageNet 上进行实验,确保搜索与再训练之间的超参数设置保持一致,以减少优化差距。
实验结果
研究问题
- RQ1修订后的架构梯度估计是否能减少 DARTS 中超网络与其子网络之间的优化差距?
- RQ2具有有界误差的修订梯度项能否稳定搜索并允许更大且更复杂的 NAS 空间?
- RQ3统一的搜索-再训练超参数如何影响最终架构的稳定性和质量?
- RQ4在 CIFAR-10 和 ImageNet 上应用修订梯度方法的经验增益是什么?
主要发现
| 架构 | 测试误差 | 参数量 | #P |
|---|---|---|---|
| Random Search † | 3.29 | 3.2 | - |
| DARTS (first-order) | 6.18 | 1.4 | 0 |
| DARTS (second-order) | 5.15 | 1.5 | 0 |
| P-DARTS | 5.38 | 1.5 | 0 |
| PC-DARTS | 3.15 | 2.4 | 3 |
| Our Approach | 2.71 | 3.3 | 7 |
| w/o amending term | 3.15 | 3.9 | 6 |
| w/o consistency | 3.08 | 3.3 | 5 |
- 修订架构梯度(g2')比标准 DARTS 产生更稳定的搜索行为,在搜索阶段将 CIFAR-10 的验证准确率提升至 91.5%(相比一阶 DARTS 的 90.5% 和二阶 DARTS 的 91.0%)。
- 当 eta = 0.1 时,该方法防止退化为全跳连接,并在收敛后产生具有竞争力的最终架构。
- 相较于 DARTS 变体和 PC-DARTS,修订方法在 CIFAR-10 上实现更低的测试误差(Amended-DARTS S1 为 2.71%;Amended-DARTS S2 固定边为 2.60%;Amended-DARTS S2 搜索边为 2.63%,而 DARTS 一阶为 6.18%,DARTS 二阶为 5.15%)。
- 使用更大更复杂的搜索空间(S2)且固定边,CIFAR-10 的误差进一步降至 2.60% 与 2.63%(两种变体),并在迁移至 ImageNet 时显示出更显著的提升。
- 该方法在长时间搜索(最高 500 轮)后仍显示出稳定性和竞争力的准确性,并能够探索大规模空间(如 S2 中的 1.9e93 个架构)。
- 消融研究表明,去除修订项或不一致的超参数会降低性能(例如不含修订项时误差为 3.15%;不一致时为 3.08%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。