QUICK REVIEW

[论文解读] NAS-Bench-101: Towards Reproducible Neural Architecture Search

Chris Ying, Aaron Klein|arXiv (Cornell University)|Feb 25, 2019

Machine Learning in Materials Science被引用 253

一句话总结

NAS-Bench-101 提供一个公开、全面的数据集，将 423k 个独特的 CNN 架构映射到在 CIFAR-10 上的训练和评估指标，从而实现快速、可重复的 NAS 基准测试，无需重新训练模型。

ABSTRACT

Recent advances in neural architecture search (NAS) demand tremendous computational resources, which makes it difficult to reproduce experiments and imposes a barrier-to-entry to researchers without access to large-scale computation. We aim to ameliorate these problems by introducing NAS-Bench-101, the first public architecture dataset for NAS research. To build NAS-Bench-101, we carefully constructed a compact, yet expressive, search space, exploiting graph isomorphisms to identify 423k unique convolutional architectures. We trained and evaluated all of these architectures multiple times on CIFAR-10 and compiled the results into a large dataset of over 5 million trained models. This allows researchers to evaluate the quality of a diverse range of models in milliseconds by querying the pre-computed dataset. We demonstrate its utility by analyzing the dataset as a whole and by benchmarking a range of architecture optimization algorithms.

研究动机与目标

提供一个公开可用、全面的 NAS 数据集，以实现可重复的研究。
定义一个紧凑而表达力强的搜索空间，并对架构进行穷举评估。
提供标准化的训练/评估流程，确保公平比较。
通过对搜索空间属性和算法基准测试的分析来展示数据集的实用性。

提出的方法

定义一个包含 7 节点的单元图空间，带有 3 种操作标签（3x3 卷积，1x1 卷积，3x3 最大池化），并约束为 V ≤ 7 且至多 9 条边。
使用图同构约简和固定的单元编码枚举约 423k 个唯一图。
将图转换为具有固定聚合语义的 CNN 单元（在输出处连接，在其他位置求和）。
在 CIFAR-10 上使用单一、公开的训练流程和固定超参数对每个架构进行训练（余弦学习率衰减、RMSProp、L2 正则化）。
对每个架构在四个训练周期预算下重复训练三次（4、12、36、108），以衡量方差并实现多保真基准测试。

实验结果

研究问题

RQ1是否可以利用穷举评估的 NAS 搜索空间来分析架构设计选择和搜索空间属性？
RQ2在固定、公开的数据集上对比基准，不同的 NAS 优化算法的表现如何？
RQ3在 NAS-Bench-101 中，架构操作以及单元的深度/宽度对准确率和训练成本有何影响？
RQ4搜索空间的局部性属性在多大程度上影响 NAS 算法的性能？

主要发现

该数据集将 423k 个独特架构映射到训练/验证/测试指标，使得无需重新训练即可进行快速查找。
最佳架构在 CIFAR-10 上的平均测试准确率达到 94.32%；ResNet 风格的单元和 Inception 风格的单元分别达到 93.12% 和 92.95%。
大多数架构在训练准确率很高，同时验证/测试之间错配很低（验证和测试准确度相关性很高，r=0.999 在 108 轮时）。
手工设计的单元位于准确率与训练成本的帕累托前沿附近，表明拓扑和操作选择对高性能与效率至关重要。
搜索空间的局部性很强，有意义的性能变化集中在较小的编辑距离内；约 35.4% 的空间处于距离顶部图形的距离 6 的范围内。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。