Skip to main content
QUICK REVIEW

[论文解读] DSNAS: Direct Neural Architecture Search without Parameter Retraining

Shoukang Hu, Sirui Xie|arXiv (Cornell University)|Feb 21, 2020
Advanced Neural Network Applications参考文献 30被引用 26
一句话总结

DSNAS 提出了一种直接神经架构搜索框架,在单一训练阶段内联合优化架构与参数,无需重新训练。通过在可微搜索中使用低偏差的蒙特卡洛估计,DSNAS 在 420 GPU 小时内实现了 ImageNet 上 74.4% 的 top-1 准确率——与最先进方法相当,但总计算时间减少超过 34%,且发现的模型可直接部署而无需重新训练。

ABSTRACT

If NAS methods are solutions, what is the problem? Most existing NAS methods require two-stage parameter optimization. However, performance of the same architecture in the two stages correlates poorly. In this work, we propose a new problem definition for NAS, task-specific end-to-end, based on this observation. We argue that given a computer vision task for which a NAS method is expected, this definition can reduce the vaguely-defined NAS evaluation to i) accuracy of this task and ii) the total computation consumed to finally obtain a model with satisfying accuracy. Seeing that most existing methods do not solve this problem directly, we propose DSNAS, an efficient differentiable NAS framework that simultaneously optimizes architecture and parameters with a low-biased Monte Carlo estimate. Child networks derived from DSNAS can be deployed directly without parameter retraining. Comparing with two-stage methods, DSNAS successfully discovers networks with comparable accuracy (74.4%) on ImageNet in 420 GPU hours, reducing the total time by more than 34%. Our implementation is available at https://github.com/SNAS-Series/SNAS-Series.

研究动机与目标

  • 为解决两阶段 NAS 方法效率低下且泛化能力差的问题,这些方法在架构搜索后需要单独的重新训练阶段。
  • 将 NAS 重新定义为特定任务的端到端优化问题,使架构与参数联合训练,生成可直接部署的模型。
  • 消除因训练设置不同导致的搜索阶段与重新训练阶段性能差距。
  • 开发一种可微 NAS 框架,避免先前方法(如 SNAS 和 ProxylessNAS)带来的内存与计算开销。

提出的方法

  • DSNAS 引入了一种可微搜索策略,在单个反向传播循环中同时优化架构与网络参数。
  • 它采用低偏差的蒙特卡洛估计器来近似离散架构选择的梯度,降低优化过程中的方差与偏差。
  • 该框架在训练期间不存储完整父网络,与 SNAS 不同,显著降低了内存使用量。
  • 它使用单路径采样机制,高效地采样并训练子网络,无需代理模型或多个训练阶段。
  • 架构搜索在目标任务上端到端进行,无单独的重新训练阶段。
  • 该方法支持直接部署所推导的子网络,无需额外的参数微调。
Figure 1: Projecting from the architecture space $\mathcal{A}$ to the network space $\mathcal{N}(\theta)$ with different parameter training schemes in searching and retraining results in accuracy with low correlation.
Figure 1: Projecting from the architecture space $\mathcal{A}$ to the network space $\mathcal{N}(\theta)$ with different parameter training schemes in searching and retraining results in accuracy with low correlation.

实验结果

研究问题

  • RQ1可微 NAS 框架是否能在不需架构搜索后单独重新训练阶段的情况下实现高性能?
  • RQ2搜索阶段与重新训练阶段准确率之间的性能相关性如何影响两阶段 NAS 方法的有效性?
  • RQ3单阶段、端到端的 NAS 框架是否能在准确率与总计算成本两方面均优于现有的两阶段与单次方法?
  • RQ4梯度估计的偏差与方差对可微 NAS 的效率与稳定性有何影响?
  • RQ5如何在保持高搜索准确率的同时最小化可微 NAS 中的内存与计算开销?

主要发现

  • DSNAS 仅用 420 GPU 小时就在 ImageNet 上实现了 74.4% 的 top-1 准确率,与两阶段方法相比总时间减少超过 34%。
  • 该框架发现的模型可直接部署,无需重新训练,消除了单独评估阶段的需求。
  • DSNAS 的训练时间每轮比 SNAS 快五倍,比 ProxylessNAS 快两倍,且内存消耗显著降低。
  • 最终模型的性能与搜索阶段的性能高度相关,验证了端到端方法的有效性。
  • 即使采用均匀先验分布,该方法仍能保持高准确率(74.3% top-1),表明对先验选择具有鲁棒性。
  • 该框架在 324M FLOPS 下实现了具有竞争力的结果,与 MobileNet 和 ShuffleNet 相当,同时实现完全自动化与端到端训练。
Figure 2: Forward and backward on SNAS, ProxylessNAS and DSNAS. Blue lumps stand for feature maps, orange ones for operation candidates. Blue arrow lines indicate forward data flows, purple dashed lines indicate backward ones. Semi-transparent lumps stand for parent networks that are not instantiate
Figure 2: Forward and backward on SNAS, ProxylessNAS and DSNAS. Blue lumps stand for feature maps, orange ones for operation candidates. Blue arrow lines indicate forward data flows, purple dashed lines indicate backward ones. Semi-transparent lumps stand for parent networks that are not instantiate

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。