[论文解读] PC-DARTS: Partial Channel Connections for Memory-Efficient Differentiable Architecture Search.
PC-DARTS 通过在搜索过程中仅对超网络中的部分通道进行采样,提出了一种内存高效的可微架构搜索方法,从而减少了计算冗余。通过引入边归一化以稳定边选择,该方法实现了更快、更稳定的训练,并支持更大的批量大小,在 0.1 GPU 天内达到 CIFAR-10 上 2.57% 的测试误差,在 3.8 GPU 天内达到 ImageNet(移动端设置)上 24.2% 的 top-1 误差。
Differentiable architecture search (DARTS) provided a fast solution in finding effective network architectures, but suffered from large memory and computing overheads in jointly training a super-net and search for an optimal architecture. In this paper, we present a novel approach, namely Partially-Connected DARTS, by sampling a small part of super-net to reduce the redundancy in network space, thereby performing a more efficient search without comprising the performance. In particular, we perform operation search in a subset of channels and leave the held out part unchanged. This strategy may suffer from an undesired inconsistency on selecting the edges of super-net caused by the sampling of different channels. We solve it by introducing edge normalization, which adds a new set of edge-level hyper-parameters during search to reduce uncertainty in search. Thanks to the reduced memory cost, PC-DARTS can be trained with a larger batch size and, consequently, enjoys both faster speed and higher training stability. Experimental results demonstrate the effectiveness of the proposed method. Specifically, we achieve an error rate of 2:57% on CIFAR10 within merely 0:1 GPU-days for architecture search, and a state-of-the-art top-1 error rate of 24:2% on ImageNet (under the mobile setting) within 3.8 GPU-days for search. We have made our code available: https://github.com/yuhuixu1993/PC-DARTS.
研究动机与目标
- 降低标准 DARTS 在架构搜索期间的高内存和计算成本。
- 解决因仅对超网络中的部分通道进行采样而导致的边选择不稳定性问题。
- 在显著降低内存消耗的同时保持高性能的搜索能力。
- 在训练过程中支持更大的批量大小,以提升训练稳定性和速度。
提出的方法
- 在搜索阶段,PC-DARTS 仅对超网络中的部分通道进行采样,从而减少冗余和内存使用。
- 操作搜索在选定的通道子集中进行,而其余通道保持不变,以保留特征表示能力。
- 引入边归一化作为一组可学习的边级超参数,以减少架构搜索决策中的不确定性和不一致性。
- 该方法保持可微搜索范式,但仅对部分通道应用该范式,从而在不损失性能的前提下提升效率。
- 由于内存占用减少,训练过程可使用更大的批量大小,从而提升训练稳定性和收敛速度。
实验结果
研究问题
- RQ1仅对超网络中的部分通道进行采样,是否能在不降低性能的前提下减少可微架构搜索中的内存消耗?
- RQ2当仅使用部分通道进行搜索时,如何缓解边选择的不一致性?
- RQ3通过部分连接减少搜索空间,是否能实现更快的收敛速度和更优的训练稳定性?
- RQ4在内存和时间约束下,PC-DARTS 在 CIFAR-10 和 ImageNet 等基准数据集上能达到多大程度的当前最优性能?
主要发现
- PC-DARTS 在仅使用 0.1 GPU 天搜索时间的情况下,于 CIFAR-10 上实现了 2.57% 的 top-1 错误率。
- 在移动端设置下的 ImageNet 上,PC-DARTS 仅用 3.8 GPU 天的搜索时间,便达到了当前最优的 24.2% top-1 错误率。
- 该方法因内存使用减少,得以支持更大的批量大小,从而实现更快的训练和更优的稳定性。
- 边归一化有效降低了边选择中的不确定性,即使在部分通道采样的情况下,也显著提升了搜索的一致性。
- 所提出的方法在显著降低标准 DARTS 的计算和内存开销的同时,保持了高性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。