QUICK REVIEW

[论文解读] DARTS: Differentiable Architecture Search

Hanxiao Liu, Karen Simonyan|arXiv (Cornell University)|Jun 24, 2018

Machine Learning in Bioinformatics被引用 1,401

一句话总结

DARTS 引入了一种可微分、基于梯度的方法，通过将离散搜索空间放松为连续空间来搜索神经网络架构，从而实现卷积网络和循环网络的高效架构发现。

ABSTRACT

This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.

研究动机与目标

激励在高成本的强化学习/进化方法之外进行可扩展的架构搜索。
提出一个可微分的双层优化框架，以联合学习架构和权重。
证明基于梯度的搜索在 CIFAR-10 和 PTB 上以大幅降低的计算成本实现具有竞争力或更优的性能。
证明学习到的单元能够迁移到 ImageNet 和 WikiText-2。

提出的方法

将架构表示为一个有向无环图单元，其中边分配候选操作。
通过用对操作的加权 softmax 替代离散操作选择来应用连续放松，由架构参数 alpha 参数化。
将其表述为双层优化：对架构参数 alpha 最小化验证损失，同时在给定 alpha 的情况下对训练损失训练权重 w。
使用通过一次展开优化的近似架构梯度：nabla_alpha L_val(w', alpha) ，其中 w' = w - xi nabla_w L_train(w, alpha)。
在计算架构梯度时，使用基于有限差分的近似来降低二阶代价。
通过在每个节点保留最强的 top-k 个操作来推导最终离散架构（卷积为 k=2，循环为 k=1），并排除零值以实现公平比较。

实验结果

研究问题

RQ1可微分放松是否能够在 CNN 与 RNN 领域实现基于梯度的神经架构搜索？
RQ2在大幅降低搜索计算量的同时，基于梯度的架构搜索是否能够达到或超越非可微 NAS 方法？
RQ3在 CIFAR-10/PTB 上找到的架构是否能迁移到更大数据集，如 ImageNet 和 WikiText-2？

主要发现

DARTS 在 CIFAR-10 上的测试错误率为 2.76 ± 0.09%，拥有 3.3M 参数，搜索使用 1.5 GPU 天（某些设置为 4 GPU 天），与需要数量级更多计算资源的最先进方法相比具有竞争力。
在 Penn Treebank 上，所学习的循环单元达到 55.7 的测试困惑度，在类似约束下优于广泛调优的 LSTM 和其他 NAS 方法。
迁移实验表明在 CIFAR-10 学习到的单元可迁移到 ImageNet（移动设置），Top-1 错误率 26.7%，参数量 8.7M；而从 PTB 派生的循环单元可迁移到 WikiText-2。
DARTS 在可比资源下优于 ENAS，并在 PTB 上达到或超过最先进的结果，同时所需的搜索成本远低于基于 RL/进化的 NAS 方法。
本文强调高效性，在评估的架构上进行了四次搜索，总计约 1 GPU 日，并指出在搜索空间中随机搜索具有竞争力，但 DARTS 能带来显著收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。