[论文解读] Differentiable Neural Architecture Search via Proximal Iterations.
本文提出NASP,一种使用邻近迭代来在操作更新中强制稀疏性的可微神经架构搜索方法,从而实现更快的收敛速度。通过在每次迭代中仅更新一个操作,NASP在多个基准测试上相比DARTS实现了10倍的速度提升,同时保持或提升了架构性能。
Neural architecture search (NAS) recently attracts much research attention because of its ability to identify better architectures than handcrafted ones. However, many NAS methods, which optimize the search process in a discrete search space, need many GPU days for convergence. Recently, DARTS, which constructs a differentiable search space and then optimizes it by gradient descent, can obtain high-performance architecture and reduces the search time to several days. However, DARTS is still slow as it updates an ensemble of all operations and keeps only one after convergence. Besides, DARTS can converge to inferior architectures due to the strong correlation among operations. In this paper, we propose a new differentiable Neural Architecture Search method based on Proximal gradient descent (denoted as NASP). Different from DARTS, NASP reformulates the search process as an optimization problem with a constraint that only one operation is allowed to be updated during forward and backward propagation. Since the constraint is hard to deal with, we propose a new algorithm inspired by proximal iterations to solve it. Experiments on various tasks demonstrate that NASP can obtain high-performance architectures with 10 times of speedup on the computational time than DARTS.
研究动机与目标
- 解决现有神经架构搜索(NAS)方法的高计算成本问题,特别是依赖离散搜索空间的方法。
- 克服DARTS收敛缓慢的问题,其在每次迭代中同时更新所有操作,并在收敛后仅保留一个操作。
- 缓解DARTS因操作之间强相关性而收敛到次优架构的问题。
- 开发一种可微搜索方法,通过在操作更新中强制稀疏性,以提升训练效率和架构质量。
提出的方法
- 将NAS搜索过程重新表述为一个约束优化问题,其中每次前向和反向传播仅更新一个操作。
- 提出一种受邻近迭代启发的新算法,以处理单操作更新的硬约束,从而实现可微优化。
- 使用邻近梯度下降法,迭代地更新单个操作,同时保持架构参数的稀疏性。
- 在强制结构约束以防止多个操作共同适应的同时,保持搜索空间的可微性。
- 设计一种可微搜索空间,其中架构参数在硬稀疏性约束下通过梯度下降进行优化。
- 利用邻近算子将更新方向投影到可行集上,以确保每次仅激活一个操作。
实验结果
研究问题
- RQ1在可微NAS中强制操作更新的稀疏性是否能在不牺牲架构性能的前提下提升收敛速度?
- RQ2与标准梯度下降相比,所提出的基于邻近迭代的优化策略在收敛速度和最终准确率方面表现如何?
- RQ3单操作更新约束在多大程度上减轻了NAS中操作相关性带来的负面影响?
- RQ4所提出的方法是否能在显著降低计算成本的前提下,实现与DARTS相当或更优的性能?
主要发现
- NASP在多个基准任务上的计算时间相比DARTS实现了10倍的速度提升。
- 该方法在CIFAR-10、CIFAR-100和ImageNet-1K等标准NAS基准上保持或提升了性能。
- 通过邻近迭代实现的稀疏性强制,NASP减少了DARTS中由相关性引起的收敛问题。
- 单操作更新约束使得架构搜索过程中的优化动态更加稳定和高效。
- 即使更新机制更加受限,NASP也比DARTS更快收敛到高性能架构。
- 所提出的方法在不牺牲最终模型准确率的前提下,一致地提升了搜索效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。