[论文解读] Probabilistic Neural Architecture Search
PARSEC 引入一种内存高效的概率性 NAS,学习高性能架构的分布,可从小的代理任务迁移到更大任务,在搜索成本显著降低的同时取得竞争性结果。
In neural architecture search (NAS), the space of neural network architectures is automatically explored to maximize predictive accuracy for a given task. Despite the success of recent approaches, most existing methods cannot be directly applied to large scale problems because of their prohibitive computational complexity or high memory usage. In this work, we propose a Probabilistic approach to neural ARchitecture SEarCh (PARSEC) that drastically reduces memory requirements while maintaining state-of-the-art computational complexity, making it possible to directly search over more complex architectures and larger datasets. Our approach only requires as much memory as is needed to train a single architecture from our search space. This is due to a memory-efficient sampling procedure wherein we learn a probability distribution over high-performing neural network architectures. Importantly, this framework enables us to transfer the distribution of architectures learnt on smaller problems to larger ones, further reducing the computational cost. We showcase the advantages of our approach in applications to CIFAR-10 and ImageNet, where our approach outperforms methods with double its computational cost and matches the performance of methods with costs that are three orders of magnitude larger.
研究动机与目标
- 提出可扩展到大型数据集且不需要过高内存使用的神经架构搜索(NAS)。
- 提出一个概率框架,用于学习高性能架构的分布。
- 实现从较小的代理问题到更大网络和数据集的架构分布迁移。
- 在 CIFAR-10 和 ImageNet 上取得与同行相比,成本更低的竞争性结果。
提出的方法
- 定义一个基于单元的搜索空间(普通单元和下采样单元),使用 DARTS 风格空间中常见的 7 种原始操作。
- 引入对每个节点输入/操作选择的先验 p(α|π),具有独立的类别因素。
- 将架构搜索表述为条件似然 p(y|X,v,π)=∫ p(y|X,v,α)p(α|π)dα,并通过带权重要性蒙特卡洛经验贝叶斯进行优化。
- 从 p(α|π) 采样子架构并计算重要性权重,以同时更新网络权重 v 和架构超参数 π。
- 通过这种基于采样的方法将内存使用限制在训练单个架构的水平,从而直接对全尺寸网络进行搜索。
- 可选地将学习到的架构分布迁移到更大网络或数据集并在目标任务上进行微调。
实验结果
研究问题
- RQ1一个概率性的 NAS 框架是否能够学习高性能架构的分布,并在内存效率方面与训练单个架构相当?
- RQ2将小代理问题上学习到的架构分布迁移到更大网络/数据集是否能提高手效率和性能?
- RQ3在 CIFAR-10 和 ImageNet 上,PARSEC 的性能和搜索成本与最先进的 NAS 方法相比如何?
- RQ4在全尺寸网络上对架构分布进行微调是否有利于最终精度?
主要发现
| Architecture | Test Error (CIFAR-10) | Params (M) | Search Cost (GPU days) | Method |
|---|---|---|---|---|
| PARSEC (search small network on CIFAR-10) | 2.86 ± 0.06 | 3.6 | 0.6 | gradient-based |
| PARSEC (fine-tuning large network on CIFAR-10) | 2.81 ± 0.03 | 3.7 | 1 | gradient-based |
| DARTS (second order) | 2.83 ± 0.06 | 3.4 | 4 | gradient-based |
| SNAS + aggressive constraint + cutout | 3.10 ± 0.04 | 2.3 | 1.5 | gradient-based |
| SNAS + mild constraint + cutout | 2.98 | 2.9 | 1.5 | gradient-based |
- PARSEC 在 CIFAR-10 上达到或超过具有相似搜索空间成本的方法的性能,且在对大网络进行微调后结果进一步提升。
- 内存使用等同于训练单个架构,使直接对全尺寸网络和更大数据集进行搜索成为可能。
- 在小型代理网络上学习的架构分布可以迁移并在更大问题上进行微调,从而降低总计算成本。
- 在 CIFAR-10 上,经过微调的 PARSEC 以显著低于大多数基线的搜索成本实现了有竞争力的精度。
- 在 ImageNet 上,PARSEC 识别的架构在相似搜索成本下表现优于同类方法,并接近更昂贵方法的性能。
- 在 CIFAR-10 上的最佳 PARSEC 网络及随后在 ImageNet 上的微调展示出强大的可扩展性和效率,在成本方面比若干同期方法低几个数量级。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。