[论文解读] Graph HyperNetworks for Neural Architecture Search
Graph HyperNetwork (GHN) 直接从其计算图为候选 CNN 生成所有权重,从而通过 GHN 生成的权重评估大量架构实现快速 NAS,并在随机基线约十倍更快的搜索中达到有竞争力的准确度。
Neural architecture search (NAS) automatically finds the best task-specific neural network topology, outperforming many manual architecture designs. However, it can be prohibitively expensive as the search requires training thousands of different networks, while each can last for hours. In this work, we propose the Graph HyperNetwork (GHN) to amortize the search cost: given an architecture, it directly generates the weights by running inference on a graph neural network. GHNs model the topology of an architecture and therefore can predict network performance more accurately than regular hypernetworks and premature early stopping. To perform NAS, we randomly sample architectures and use the validation accuracy of networks with GHN generated weights as the surrogate search signal. GHNs are fast -- they can search nearly 10 times faster than other random search methods on CIFAR-10 and ImageNet. GHNs can be further extended to the anytime prediction setting, where they have found networks with better speed-accuracy tradeoff than the state-of-the-art manual designs.
研究动机与目标
- 通过摊销内部循环权重优化来降低 NAS 计算成本的动机。
- 引入一种基于图的表示来捕获拓扑结构的架构。
- 开发 GHN,通过图神经网络加超网络来预测所有权重。
- 展示 GHN 支持的 NAS 在 CIFAR-10 和 ImageNet-mobile 上的效率与有效性。
- 将 GHN 扩展到 anytime 预测以优化速度-精度权衡。
提出的方法
- 将神经架构编码为计算图,其中节点是带权重的算子。
- 使用图神经网络得到节点嵌入以总结拓扑。
- 应用共享的超网络通过方程 w~v=H(hv^(T);φ) 将节点嵌入映射到所有节点权重。
- 通过反向传播将训练损失通过生成的权重进行端到端训练 GHN。
- 采用前向-后向异步传播以改善长有向无环图的梯度流动。
- 通过在重复模块中堆叠 GHN 并共享参数来探索架构模块。
实验结果
研究问题
- RQ1一个基于图的超网络是否能从其计算图中为未见过的架构准确预测权重?
- RQ2基于 GHN 训练的代理信号是否能以显著降低搜索成本实现有竞争力的 NAS 性能?
- RQ3GHN 预测性能与对齐完整训练后的架构性能之间的相关性是多少?
- RQ4GHN 是否可以扩展为 anytime 预测以改善速度-精度权衡?
- RQ5设计选择(节点数量、传播方式、堆叠架构)如何影响 GHN 的有效性?
主要发现
| 方法 | 搜索成本(GPU 天) | 参数 ×10^6 | 准确度 |
|---|---|---|---|
| SMASHv1 (Brock et al., 2018) | ? | 4.6 | 94.5 |
| SMASHv2 (Brock et al., 2018) | 3 | 16.0 | 96.0 |
| One-Shot Top (F=32) (Bender et al., 2018) | 4 | 2.7 ± 0.3 | 95.5 ± 0.1 |
| One-Shot Top (F=64) (Bender et al., 2018) | 4 | 10.4 ± 1.0 | 95.9 ± 0.2 |
| Random (F=32) | - | 4.6 ± 0.6 | 94.6 ± 0.3 |
| GHN Top (F=32) | 0.42 | 5.1 ± 0.6 | 95.7 ± 0.1 |
- GHN 在 CIFAR-10 上取得具有竞争力的结果,在 ImageNet-mobile 上也有良好表现,搜索成本大约比若干随机搜索基线快 10 倍。
- 在 CIFAR-10 上,GHN Top (F=32) 需要 0.42 GPU-days 的搜索成本,得到 5.1e6 个参数,准确率为 95.7%;GHN Top-Best (1K, F=32) 在 0.84 GPU-days 内达到 97.16% ±0.07%,参数为 5.7e6。
- 在 ImageNet-mobile 上,通过 GHN 将最佳 CIFAR 模块迁移,得到 Top-1 73.0% 和 Top-5 91.3%,搜索成本 0.84 GPU-days,参数约为 6.1e6。
- 预测性能相关性显示 GHN 对顶级架构的相关性更高(0.68 与 Random-100,Top-50 0.48,在共享参数的堆叠 GHN 与前向-后向传播下)相比单次尝试和 SGD 基线。
- GHN 展示出强大的 anytime-prediction 性能,找到在速度-精度权衡上优于最先进的人工设计模型的网络。
- 消融研究表明:节点数量增加到某个点后可能降低学习效果,前向-后向传播优于同步方案,跨堆叠 GHN 共享参数能提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。