[论文解读] DARTS: Differentiable Architecture Search
DARTS 引入了一种可微分、基于梯度的方法,通过将离散搜索空间放松为连续空间来搜索神经网络架构,从而实现卷积网络和循环网络的高效架构发现。
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
研究动机与目标
- 激励在高成本的强化学习/进化方法之外进行可扩展的架构搜索。
- 提出一个可微分的双层优化框架,以联合学习架构和权重。
- 证明基于梯度的搜索在 CIFAR-10 和 PTB 上以大幅降低的计算成本实现具有竞争力或更优的性能。
- 证明学习到的单元能够迁移到 ImageNet 和 WikiText-2。
提出的方法
- 将架构表示为一个有向无环图单元,其中边分配候选操作。
- 通过用对操作的加权 softmax 替代离散操作选择来应用连续放松,由架构参数 alpha 参数化。
- 将其表述为双层优化:对架构参数 alpha 最小化验证损失,同时在给定 alpha 的情况下对训练损失训练权重 w。
- 使用通过一次展开优化的近似架构梯度:nabla_alpha L_val(w', alpha) ,其中 w' = w - xi nabla_w L_train(w, alpha)。
- 在计算架构梯度时,使用基于有限差分的近似来降低二阶代价。
- 通过在每个节点保留最强的 top-k 个操作来推导最终离散架构(卷积为 k=2,循环为 k=1),并排除零值以实现公平比较。
实验结果
研究问题
- RQ1可微分放松是否能够在 CNN 与 RNN 领域实现基于梯度的神经架构搜索?
- RQ2在大幅降低搜索计算量的同时,基于梯度的架构搜索是否能够达到或超越非可微 NAS 方法?
- RQ3在 CIFAR-10/PTB 上找到的架构是否能迁移到更大数据集,如 ImageNet 和 WikiText-2?
主要发现
- DARTS 在 CIFAR-10 上的测试错误率为 2.76 ± 0.09%,拥有 3.3M 参数,搜索使用 1.5 GPU 天(某些设置为 4 GPU 天),与需要数量级更多计算资源的最先进方法相比具有竞争力。
- 在 Penn Treebank 上,所学习的循环单元达到 55.7 的测试困惑度,在类似约束下优于广泛调优的 LSTM 和其他 NAS 方法。
- 迁移实验表明在 CIFAR-10 学习到的单元可迁移到 ImageNet(移动设置),Top-1 错误率 26.7%,参数量 8.7M;而从 PTB 派生的循环单元可迁移到 WikiText-2。
- DARTS 在可比资源下优于 ENAS,并在 PTB 上达到或超过最先进的结果,同时所需的搜索成本远低于基于 RL/进化的 NAS 方法。
- 本文强调高效性,在评估的架构上进行了四次搜索,总计约 1 GPU 日,并指出在搜索空间中随机搜索具有竞争力,但 DARTS 能带来显著收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。