Skip to main content
QUICK REVIEW

[论文解读] DARTS: Differentiable Architecture Search

Hanxiao Liu, Karen Simonyan|arXiv (Cornell University)|Jun 24, 2018
Machine Learning in Bioinformatics被引用 1,401
一句话总结

DARTS 引入了一种可微分、基于梯度的方法,通过将离散搜索空间放松为连续空间来搜索神经网络架构,从而实现卷积网络和循环网络的高效架构发现。

ABSTRACT

This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.

研究动机与目标

  • 激励在高成本的强化学习/进化方法之外进行可扩展的架构搜索。
  • 提出一个可微分的双层优化框架,以联合学习架构和权重。
  • 证明基于梯度的搜索在 CIFAR-10 和 PTB 上以大幅降低的计算成本实现具有竞争力或更优的性能。
  • 证明学习到的单元能够迁移到 ImageNet 和 WikiText-2。

提出的方法

  • 将架构表示为一个有向无环图单元,其中边分配候选操作。
  • 通过用对操作的加权 softmax 替代离散操作选择来应用连续放松,由架构参数 alpha 参数化。
  • 将其表述为双层优化:对架构参数 alpha 最小化验证损失,同时在给定 alpha 的情况下对训练损失训练权重 w。
  • 使用通过一次展开优化的近似架构梯度:nabla_alpha L_val(w', alpha) ,其中 w' = w - xi nabla_w L_train(w, alpha)。
  • 在计算架构梯度时,使用基于有限差分的近似来降低二阶代价。
  • 通过在每个节点保留最强的 top-k 个操作来推导最终离散架构(卷积为 k=2,循环为 k=1),并排除零值以实现公平比较。

实验结果

研究问题

  • RQ1可微分放松是否能够在 CNN 与 RNN 领域实现基于梯度的神经架构搜索?
  • RQ2在大幅降低搜索计算量的同时,基于梯度的架构搜索是否能够达到或超越非可微 NAS 方法?
  • RQ3在 CIFAR-10/PTB 上找到的架构是否能迁移到更大数据集,如 ImageNet 和 WikiText-2?

主要发现

  • DARTS 在 CIFAR-10 上的测试错误率为 2.76 ± 0.09%,拥有 3.3M 参数,搜索使用 1.5 GPU 天(某些设置为 4 GPU 天),与需要数量级更多计算资源的最先进方法相比具有竞争力。
  • 在 Penn Treebank 上,所学习的循环单元达到 55.7 的测试困惑度,在类似约束下优于广泛调优的 LSTM 和其他 NAS 方法。
  • 迁移实验表明在 CIFAR-10 学习到的单元可迁移到 ImageNet(移动设置),Top-1 错误率 26.7%,参数量 8.7M;而从 PTB 派生的循环单元可迁移到 WikiText-2。
  • DARTS 在可比资源下优于 ENAS,并在 PTB 上达到或超过最先进的结果,同时所需的搜索成本远低于基于 RL/进化的 NAS 方法。
  • 本文强调高效性,在评估的架构上进行了四次搜索,总计约 1 GPU 日,并指出在搜索空间中随机搜索具有竞争力,但 DARTS 能带来显著收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。