[论文解读] Theory-Inspired Path-Regularized Differential Network Architecture Search
本文提出路径正则化DARTS(PR-DARTS),一种受理论启发的方法,用于解决可微神经架构搜索(DARTS)中跳跃连接占主导地位的问题。通过理论证明跳跃连接可加速优化收敛,PR-DARTS引入分组结构的稀疏门和路径深度级正则化,以确保操作间的公平竞争并提升深层架构中的探索能力,在图像分类基准上实现了最先进性能。
Despite its high search efficiency, differential architecture search (DARTS) often selects network architectures with dominated skip connections which lead to performance degradation. However, theoretical understandings on this issue remain absent, hindering the development of more advanced methods in a principled way. In this work, we solve this problem by theoretically analyzing the effects of various types of operations, e.g. convolution, skip connection and zero operation, to the network optimization. We prove that the architectures with more skip connections can converge faster than the other candidates, and thus are selected by DARTS. This result, for the first time, theoretically and explicitly reveals the impact of skip connections to fast network optimization and its competitive advantage over other types of operations in DARTS. Then we propose a theory-inspired path-regularized DARTS that consists of two key modules: (i) a differential group-structured sparse binary gate introduced for each operation to avoid unfair competition among operations, and (ii) a path-depth-wise regularization used to incite search exploration for deep architectures that often converge slower than shallow ones as shown in our theory and are not well explored during the search. Experimental results on image classification tasks validate its advantages.
研究动机与目标
- 从理论上解释DARTS为何因优化过程中收敛更快而偏好跳跃连接。
- 解决DARTS中跳跃连接与其他操作之间不公平的竞争问题,该问题导致生成次优架构。
- 通过促进对复杂路径的更好探索,提升深层架构中的搜索效率与准确性。
- 开发一种基于原理、受理论启发的DARTS替代方法,避免跳跃连接占主导,并实现最先进性能。
提出的方法
- 引入基于伯努利分布的分组结构稀疏二值门,以控制操作使用,并对跳跃连接组与非跳跃连接组分别施加独立的稀疏正则化。
- 应用硬阈值函数以在门参数中强制实现稀疏性,减少不同操作类型之间的不公平竞争。
- 实施路径深度级正则化,以抵消对浅层单元的偏见,这些单元因收敛更快而在标准DARTS中被过度选择。
- 采用可微搜索框架,其中架构参数通过在验证损失上的梯度下降进行更新,并采用修改后的目标函数以平衡操作选择。
- 在利普希茨连续性和光滑性假设下,对收敛速率进行理论分析,以证明跳跃连接对优化速度的影响。
- 将两种正则化组件整合到统一的PR-DARTS框架中,协同解决操作竞争与深度偏见问题。
实验结果
研究问题
- RQ1为何尽管跳跃连接对性能有负面影响,它们在DARTS中仍占主导地位?
- RQ2DARTS的收敛速率在多大程度上依赖于跳跃连接的存在,而非其他操作?
- RQ3能否通过理论驱动的正则化策略,公平地平衡可微NAS中不同类型操作之间的竞争?
- RQ4路径深度级正则化如何改善深层架构中的搜索探索,尤其是在浅层路径收敛更快的情况下?
- RQ5通过消除跳跃连接占主导的问题,能否在保持高搜索效率的同时,使改进后的DARTS框架实现更优性能?
主要发现
- 理论分析证明,由于跳跃连接的结构特性,其可加速DARTS中的收敛,从而解释了其在搜索中的主导地位。
- 与标准DARTS相比,PR-DARTS在搜索到的架构中显著降低了跳跃连接的比例,从而提升了泛化能力。
- 分组结构的稀疏门通过强制实现独立稀疏性,有效缓解了不同类型操作之间的不公平竞争。
- 路径深度级正则化成功减少了对浅层单元的偏见,改善了对深层路径的探索。
- PR-DARTS在图像分类基准上实现了最先进准确率,优于标准DARTS和先前方法。
- 实验结果验证,PR-DARTS在保持高搜索效率的同时,生成了更多样化且性能更优的架构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。