Skip to main content
QUICK REVIEW

[论文解读] BayesNAS: A Bayesian Approach for Neural Architecture Search

Hongpeng Zhou, Minghao Yang|arXiv (Cornell University)|May 13, 2019
Advanced Neural Network Applications被引用 88
一句话总结

BayesNAS 在执行一次性 NAS 之前引入一个分层自动相关决定先验,以建模节点之间的依赖来修剪边并实现极快的搜索(在 CIFAR-10 上约 0.2 GPU-days)。它还通过结构稀疏性支持网络压缩。

ABSTRACT

One-Shot Neural Architecture Search (NAS) is a promising method to significantly reduce search time without any separate training. It can be treated as a Network Compression problem on the architecture parameters from an over-parameterized network. However, there are two issues associated with most one-shot NAS methods. First, dependencies between a node and its predecessors and successors are often disregarded which result in improper treatment over zero operations. Second, architecture parameters pruning based on their magnitude is questionable. In this paper, we employ the classic Bayesian learning approach to alleviate these two issues by modeling architecture parameters using hierarchical automatic relevance determination (HARD) priors. Unlike other NAS methods, we train the over-parameterized network for only one epoch then update the architecture. Impressively, this enabled us to find the architecture on CIFAR-10 within only 0.2 GPU days using a single GPU. Competitive performance can be also achieved by transferring to ImageNet. As a byproduct, our approach can be applied directly to compress convolutional neural networks by enforcing structural sparsity which achieves extremely sparse networks without accuracy deterioration.

研究动机与目标

  • 提高神经架构搜索,通过解决边缘依赖和 zero-operation bias in one-shot NAS.
  • 通过分层自动相关决定先验促进稀疏性和鲁棒的边缘修剪。
  • 通过迭代重加权优化与基于 Hessian 的方差更新实现快速搜索。
  • 通过结构稀疏性实现直接网络压缩而不显著损失准确性。

提出的方法

  • 使用分层自动相关决定(HARD)先验来捕捉前驱和后继之间的依赖关系。
  • 通过开关的表示和将边权与前驱活动耦合的概率公式来表示修剪。
  • 对超参数化网络进行单次训练一个 epoch,然后使用迭代重加权的 L1 型方案更新架构参数。
  • 使用拉普拉斯近似来估计后验方差并通过熵基准 gamma 指导修剪;当熵变为非正时进行修剪。
  • 提供快速 Hessian 计算以实现大型网络的可扩展二阶更新。
  • 通过调整目标函数和修剪准则扩展到代理任务和网络压缩。

实验结果

研究问题

  • RQ1HARD 先验是否能够在基于 DAG 的 NAS 中正确建模边之间的依赖,确保修剪后得到连通的派生图?
  • RQ2将架构参数进行贝叶斯处理是否优于基于幅值的修剪在识别零操作/非零操作方面?
  • RQ3该方法能否在架构更新前仅用一个 epoch 即可快速搜索架构,同时在 CIFAR-10 和 ImageNet 上保持具有竞争力的准确性?
  • RQ4BayesNAS 是否可以用于通过结构稀疏性直接实现网络压缩而不降低准确性?

主要发现

架构测试误差 / Top-1 (或 CIFAR-10 的错误) %参数 (M)搜索成本 / GPU 天搜索方法
DenseNet-BC (Huang et al., 2017)3.4625.6-manual
NASNet-A + cutout (Zoph et al., 2018)2.653.31800RL
AmoebaNet-B + cutout (Real et al., 2019)2.55 ± 0.052.83150evolution
Hierarchical Evo (Liu et al., 2018b)3.75 ± 0.1215.7300evolution
PNAS (Liu et al., 2018a)3.41 ± 0.093.2225SMBO
ENAS + cutout (Pham et al., 2018)2.894.60.5RL
Random search baseline + cutout (Liu et al., 2019b)3.29 ± 0.153.21random
DARTS (2nd order bi-level) + cutout (Liu et al., 2019b)2.76 ± 0.093.41gradient
SNAS (single-level) + moderate con + cutout (Xie et al., 2019)2.85 ± 0.022.81.5gradient
DSO-NAS-share+cutout (Zhang et al., 2019b)2.84 ± 0.073.01gradient
Proxyless-G + cutout (Cai et al., 2019)2.085.7-gradient
BayesNAS + cutout + λw^o=0.013.02 ± 0.042.59 ± 0.230.2gradient
BayesNAS + cutout + λw^o=0.0072.90 ± 0.053.10 ± 0.150.2gradient
BayesNAS + cutout + λw^o=0.0052.81 ± 0.043.40 ± 0.620.2gradient
BayesNAS + TreeCell-A + Pyramid backbone + cutout2.413.40.1gradient
Table not shown in this excerpt (ImageNet mobile results table)
  • BayesNAS 在单 GPU 上大约 0.2 GPU-days 内完成 CIFAR-10 架构搜索。
  • 该方法能产生具有竞争力的 CIFAR-10 架构并可迁移到 ImageNet,表现强劲。
  • HARD 先验和基于熵的修剪偏好将零操作尽量设为零并保持连通性。
  • 作为副产物,可以实现极度稀疏的网络而几乎不损失或完全不损失准确性,从而可能实现压缩。
  • BayesNAS 提供比若干最先进 NAS 方法更低的搜索成本,同时具备贝叶斯优势(较少的超参数调优,减少过拟合)。
  • 为 CIFAR-10 和 ImageNet 的修剪架构在移动设置下的 top-1/top-5 表现,与手工和 NAS 基线相比具有竞争力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。