[论文解读] You Only Search Once: Single Shot Neural Architecture Search via Direct Sparse Optimization
DSO-NAS 将 NAS 重新表述为在一个完全连通的块 DAG 上的直接稀疏优化,学习权重与稀疏边缩放共同以一次性剪枝架构。它在降低搜索成本的同时取得具有竞争力的结果,并实现大规模数据集的可应用性。
Recently Neural Architecture Search (NAS) has aroused great interest in both academia and industry, however it remains challenging because of its huge and non-continuous search space. Instead of applying evolutionary algorithm or reinforcement learning as previous works, this paper proposes a Direct Sparse Optimization NAS (DSO-NAS) method. In DSO-NAS, we provide a novel model pruning view to NAS problem. In specific, we start from a completely connected block, and then introduce scaling factors to scale the information flow between operations. Next, we impose sparse regularizations to prune useless connections in the architecture. Lastly, we derive an efficient and theoretically sound optimization method to solve it. Our method enjoys both advantages of differentiability and efficiency, therefore can be directly applied to large datasets like ImageNet. Particularly, On CIFAR-10 dataset, DSO-NAS achieves an average test error 2.84\%, while on the ImageNet dataset DSO-NAS achieves 25.4\% test error under 600M FLOPs with 8 GPUs in 18 hours.
研究动机与目标
- 通过避免昂贵的控制器或预测器来实现 NAS 的民主化,并提供一个可微分的、单模型搜索框架。
- 将 NAS 搜索空间表示为一个完全有向无环图并通过对边缩放进行稀疏正则化来剪枝。
- 在预算约束下发展并应用一种高效的优化方法,对权重和结构参数进行联合学习。
提出的方法
- 将 NAS 表示为在一个完全 DAG 块中剪枝边,边上有缩放因子 λ(边缘→i 的 λ 为 0 时将被剪枝)。
- 将块搜索设定为输出 h(i) = O(i)(sum_j λ(j→i) h(j));λ 通过稀疏正则化(L1)进行学习以诱导稀疏性。
- 通过加速型近端梯度法(APG-NAG)联合优化 W(权重)和 λ,采用两阶段训练以防止结构过拟合(对 W 和 λ 进行数据分割。)
- 使用预算感知正则化(Adaptive FLOPs 或 Adaptive MAC)在 FLOPs 或内存/计算约束下引导架构。
- 搜索空间包括两种模式:块共享 λ 和块独立 λ(全量搜索)。
- 最终架构通过剪除零 λ 边和孤立操作来获得,然后从头开始重新训练。
实验结果
研究问题
- RQ1NAS 是否可以通过直接剪枝一个完全连接的架构空间来有效实现,而不必使用控制器或预测器?
- RQ2一种可微分的、稀疏优化的公式是否能够在像 ImageNet 这样的大数据集上实现可扩展的 NAS?
- RQ3预算感知正则化在 FLOPs 与 MAC 约束下如何影响发现的架构?
主要发现
- 在 CIFAR-10 上,DSO-NAS 在 share 变体下达到 2.84% 的平均测试误差(±0.07),在可比参数预算下具有竞争力的结果。
- 在 ImageNet 上,DSO-NAS 在 4.8B? FLOPs 下实现 25.4% 的 top-1 / 8.4% 的 top-5,且参数数量相当,搜索成本较低,使得在 ImageNet 上直接搜索成为可能。
- 相比多种 RL/进化/One-shot NAS 方法报道的数千到数千 GPU 天的成本,DSO-NAS 的搜索成本显著降低(约 1 GPU 天左右)。
- 自适应预算策略(Adaptive FLOPs 与 Adaptive MAC)在固定 FLOPs 或 MAC 预算下通过在块之间平衡边剪枝来提升性能。
- 基于块的搜索在不共享块的情况下(DSO-NAS-full)也具有竞争力;块共享(DSO-NAS-share)在降低搜索复杂度的同时往往获得更好或相近的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。