[论文解读] ASAP: Architecture Search, Anneal and Prune
ASAP 提出了一种可微分、可退火的 NAS 方法,在搜索过程中逐步修剪表现不佳的操作,达到显著降低搜索时间的同时实现具有竞争力的准确性。
Automatic methods for Neural Architecture Search (NAS) have been shown to produce state-of-the-art network models. Yet, their main drawback is the computational complexity of the search process. As some primal methods optimized over a discrete search space, thousands of days of GPU were required for convergence. A recent approach is based on constructing a differentiable search space that enables gradient-based optimization, which reduces the search time to a few days. While successful, it still includes some noncontinuous steps, e.g., the pruning of many weak connections at once. In this paper, we propose a differentiable search space that allows the annealing of architecture weights, while gradually pruning inferior operations. In this way, the search converges to a single output network in a continuous manner. Experiments on several vision datasets demonstrate the effectiveness of our method with respect to the search cost and accuracy of the achieved model. Specifically, with $0.2$ GPU search days we achieve an error rate of $1.68\%$ on CIFAR-10.
研究动机与目标
- 通过引入一个可退火、可微分的搜索空间来降低神经架构搜索时间。
- 在搜索阶段通过逐渐剪除弱连接来提高最终架构质量。
- 为退火计划和剪枝策略提供理论指导,以确保收敛到一个强健的架构。
- 在 CIFAR-10 上与最先进的 NAS 方法相比,展示 ASAP 的竞争力并具备对其他数据集的迁移性。
提出的方法
- 为 NAS 单元内的混合操作定义一个可微分、可退火的搜索空间。
- 使用类似 Gibbs-Boltzmann 的分布 Phi_o(alpha; T) 在每条边上选择操作,温度 T 随时间逐步退火。
- 通过对验证损失的梯度下降更新架构权重 alpha,同时在训练损失上更新网络权重 omega。
- 通过将 Phi_o(alpha; T) 与阈值 theta_t 进行阈值化并逐步衰减,实现对劣势操作的渐进式剪除, enabling continuous pruning。
- 为在选定的计划下对劣势操作进行剪除提供理论上的 PAC 风格保证(0, δ)-PAC)以及一个实用的指数退火计划(Theorem 2)。
- 遵循 DARTS 范式构建最终网络,将学习得到的普通网络单元和下采样单元堆叠起来,但具备退火与渐进剪除特性。
实验结果
研究问题
- RQ1可退火、可微分的搜索空间是否能够在不牺牲准确性的前提下提升 NAS 的效率?
- RQ2在搜索过程中逐渐剪除连接是否能够比搜索结束时的硬剪除带来更快的收敛与更好的最终架构?
- RQ3应如何设计退火计划和剪枝阈值以在探索与收敛之间取得平衡?
- RQ4与其他 NAS 方法相比,ASAP 在 CIFAR-10 上以及向更大数据集(如 ImageNet)的迁移性表现如何?
主要发现
| 架构 | 测试误差 | 参数量 | 搜索成本(GPU 天) |
|---|---|---|---|
| AmoebaNet-A | 3.34 ± 0.06 | 3150 | N/A |
| AmoebaNet-B | 2.55 ± 0.05 | 3150 | N/A |
| NASNet-A | 2.65 | 1800 | N/A |
| PNAS | 3.41 | 150 | N/A |
| SNAS | 2.85 ± 0.02 | 2.8 | N/A |
| DSO-NAS | 2.95 ± 0.12 | 3 | N/A |
| PARSEC | 2.81 ± 0.03 | 3.7 | N/A |
| DARTS(2nd) | 2.76 ± 0.06 | 3.4 | 0.6 |
| PC-DARTS DL2 | 2.51 ± 0.09 | 4.0 | 0.82 |
| DARTS+ | 2.37 ± 0.13 | 4.3 | 0.6 |
| ENAS | 2.89 | 4.6 | 0.5 |
| DARTS(1nd) | 2.94 | 2.9 | 0.4 |
| P-DARTS | 2.50 | 3.4 | 0.3 |
| DARTS(1nd) | 2.94 | 2.9 | 0.4 |
| NAONet-WS | 3.53 | 2.5 | 0.3 |
| ASAP-Small | 1.99 | 2.5 | 0.2 |
| ASAP-Medium | 1.75 | 3.7 | 0.2 |
| ASAP-Large | 1.68 | 6.0 | 0.2 |
- ASAP 将搜索时间缩短到数小时,并且在 CIFAR-10 测试误差上可达到与此前 NAS 方法相竞争甚至更好(例如 ASAP-Large: 1.68% 测试误差)。
- ASAP-Small、ASAP-Medium 和 ASAP-Large 在 CIFAR-10 上分别达到 1.99%、1.75% 和 1.68% 的测试误差,且搜索成本相对适中。
- 该方法在搜索过程中实现连续剪除,降低了训练轮次时间并在搜索过程中提升稀疏性。
- ASAP 在 CIFAR-10 的精度优于若干最先进的 NAS 方法,同时保持非常低的搜索成本(例如某些运行为 0.2 GPU 天)。
- 在 CIFAR-10 上学习得到的 ASAP 架构可有效迁移到 ImageNet 及其他基准,证明所搜索的单元具备良好的可迁移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。