Skip to main content
QUICK REVIEW

[논문 리뷰] BayesNAS: A Bayesian Approach for Neural Architecture Search

Hongpeng Zhou, Minghao Yang|arXiv (Cornell University)|2019. 05. 13.
Advanced Neural Network Applications인용 수 88
한 줄 요약

BayesNAS는 한샷 NAS 전에 계층적 자동 관련성 결정 priors를 도입하여 노드 간 의존성을 모델링하고 간선 prune을 통해 매우 빠른 탐색을 가능하게 하며 CIFAR-10에서 약 0.2 GPU-일의 검색 시간을 달성한다. 또한 구조적 희소성을 통한 네트워크 압축도 지원한다.

ABSTRACT

One-Shot Neural Architecture Search (NAS) is a promising method to significantly reduce search time without any separate training. It can be treated as a Network Compression problem on the architecture parameters from an over-parameterized network. However, there are two issues associated with most one-shot NAS methods. First, dependencies between a node and its predecessors and successors are often disregarded which result in improper treatment over zero operations. Second, architecture parameters pruning based on their magnitude is questionable. In this paper, we employ the classic Bayesian learning approach to alleviate these two issues by modeling architecture parameters using hierarchical automatic relevance determination (HARD) priors. Unlike other NAS methods, we train the over-parameterized network for only one epoch then update the architecture. Impressively, this enabled us to find the architecture on CIFAR-10 within only 0.2 GPU days using a single GPU. Competitive performance can be also achieved by transferring to ImageNet. As a byproduct, our approach can be applied directly to compress convolutional neural networks by enforcing structural sparsity which achieves extremely sparse networks without accuracy deterioration.

연구 동기 및 목표

  • 에지 의존성 및 원샷 NAS의 제로-작동 바이어스를 해결하여 신경망 아키텍처 검색을 개선한다.
  • 계층적 자동 관련성 결정 priors를 통해 희소성과 견고한 에지 pruning을 촉진한다.
  • 해석적 Hessian 기반 분산 업데이트의 반복 재가중 최적화를 통해 빠른 검색을 달성한다.
  • 크나큰 정확도 손실 없이 구조적 희소성을 통한 직접 네트워크 압축을 가능하게 한다.

제안 방법

  • 전제 및 후임의 의존성을 포착하기 위해 계층적 자동 관련성 결정(HARD) priors로 모델 아키텍처 매개변수를 모델링한다.
  • 에지 가중치와 선행 활동을 결합하는 확률적 형식으로 pruning을 스위치로 표현한다.
  • 단일 에포크 동안 과초과 매개변수화된 네트워크를 훈련한 뒤, 반복적으로 재가중화(l1형 스킴) 방식으로 아키텍처 매개변수를 업데이트한다.
  • 라플레스 근사를 사용하여 포스트eriOr variance를 추정하고 엔트로피 기반 기준 gamma를 통해 pruning을 유도한다; 엔트로피가 음수가 되면 prune한다.
  • 대형 네트워크에서도 확장 가능한 2차 업데이트를 가능하게 하는 빠른 해essian 계산을 제공한다.
  • 목표와 pruning 기준을 조정하여 프록시 작업 및 네트워크 압축으로 확장한다.

실험 결과

연구 질문

  • RQ1HARD priors가 DAG 기반 NAS의 에지 간 의존성을 올바르게 모델링하여 pruning 후에도 연결된 파생 그래프를 보장하는가?
  • RQ2아키텍처 매개변수의 베이지안 처리와 규모 기반 pruning이 0/비제로 작동을 식별하는 데 더 우수한가?
  • RQ3아키텍처 업데이트 전에 단 한 에포크만 수행하더라도 빠르게 아키텍처를 탐색하면서 CIFAR-10과 ImageNet에서 경쟁력 있는 정확도를 유지하는가?
  • RQ4BayesNAS를 통해 구조적 희소성을 통한 직접 네트워크 압축이 가능하고 정확도 저하가 없는가?

주요 결과

아키텍처테스트 에러 / 탑-1 (또는 CIFAR-10의 에러) %매개변수 (M)검색 비용 / GPU 일수검색 방법
DenseNet-BC (Huang et al., 2017)3.4625.6-manual
NASNet-A + cutout (Zoph et al., 2018)2.653.31800RL
AmoebaNet-B + cutout (Real et al., 2019)2.55 ± 0.052.83150evolution
Hierarchical Evo (Liu et al., 2018b)3.75 ± 0.1215.7300evolution
PNAS (Liu et al., 2018a)3.41 ± 0.093.2225SMBO
ENAS + cutout (Pham et al., 2018)2.894.60.5RL
Random search baseline + cutout (Liu et al., 2019b)3.29 ± 0.153.21random
DARTS (2nd order bi-level) + cutout (Liu et al., 2019b)2.76 ± 0.093.41gradient
SNAS (single-level) + moderate con + cutout (Xie et al., 2019)2.85 ± 0.022.81.5gradient
DSO-NAS-share+cutout (Zhang et al., 2019b)2.84 ± 0.073.01gradient
Proxyless-G + cutout (Cai et al., 2019)2.085.7-gradient
BayesNAS + cutout + λw^o=0.013.02 ± 0.042.59 ± 0.230.2gradient
BayesNAS + cutout + λw^o=0.0072.90 ± 0.053.10 ± 0.150.2gradient
BayesNAS + cutout + λw^o=0.0052.81 ± 0.043.40 ± 0.620.2gradient
BayesNAS + TreeCell-A + Pyramid backbone + cutout2.413.40.1gradient
Table not shown in this excerpt (ImageNet mobile results table)
  • BayesNAS는 단일 GPU에서 CIFAR-10 아키텍처 탐색을 약 0.2 GPU-days 이내에 달성한다.
  • 이 방법은 CIFAR-10 아키텍처를 경쟁력 있게 생성하고 ImageNet으로의 전이에서 강력한 성능을 보인다.
  • HARD priors와 엔트로피 기반 pruning은 0-작동을 선호적으로 0으로 만들고 연결성을 유지한다.
  • 매우 희소한 네트워크가 최소한의 정확도 손실로도 가능해져 잠재적 압축이 가능하다.
  • BayesNAS는 다른 여러 최첨단 NAS 방법들에 비해 더 낮은 검색 비용을 제공하며 베이지안적 장점(하이퍼파라미터 튜닝 감소, 과적합 감소)을 제공한다.
  • CIFAR-10 및 ImageNet에 대한 prune된 아키텍처는 모바일 설정에서 수동 및 NAS 기반 기준에 비해 경쟁력 있는 top-1/top-5 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.