Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Architecture Search with Bayesian Optimisation and Optimal Transport

Kirthevasan Kandasamy, Willie Neiswanger|arXiv (Cornell University)|2018. 02. 11.
Machine Learning and Algorithms참고 문헌 50인용 수 265
한 줄 요약

NASBOT은 최적화 수법에서 새로운 OTMANN 거리를 이용한 신경망 아키텍처에 대해 베이지안 최적화를 적용하고, 획득함수를 최적화하기 위한 진화 전략을 사용하여 MLP/CNN 모델 선택 작업에서 베이스라인을 능가합니다.

ABSTRACT

Bayesian Optimisation (BO) refers to a class of methods for global optimisation of a function $f$ which is only accessible via point evaluations. It is typically used in settings where $f$ is expensive to evaluate. A common use case for BO in machine learning is model selection, where it is not possible to analytically model the generalisation performance of a statistical model, and we resort to noisy and expensive training and validation procedures to choose the best model. Conventional BO methods have focused on Euclidean and categorical domains, which, in the context of model selection, only permits tuning scalar hyper-parameters of machine learning algorithms. However, with the surge of interest in deep learning, there is an increasing demand to tune neural network \emph{architectures}. In this work, we develop NASBOT, a Gaussian process based BO framework for neural architecture search. To accomplish this, we develop a distance metric in the space of neural network architectures which can be computed efficiently via an optimal transport program. This distance might be of independent interest to the deep learning community as it may find applications outside of BO. We demonstrate that NASBOT outperforms other alternatives for architecture search in several cross validation based model selection tasks on multi-layer perceptrons and convolutional neural networks.

연구 동기 및 목표

  • 비용이 큰 네트워크 평가로 인해 효율적인 신경망 아키텍처 검색의 필요성을 제시한다.
  • 아키텍처를 표현하는 거리 메트릭(OTMANN)을 최적 전달을 통해 계산한다.
  • 아키텍처용 가우시안 프로세스 기반 BO 프레임워크인 NASBOT를 개발한다.
  • 다양한 데이터셋에서 NASBOT가 베이스라인보다 우수한 성능을 보임을 입증한다.

제안 방법

  • 뉴럴 아키텍처를 레이어 질량과 경로 길이 기반의 구조 정보가 있는 그래프로 정의한다.
  • OTMANN 거리를 제안한다: 라벨 불일치, 비할당, 구조적 페널티를 포함한 레이어 간 질량 전달의 최소화.
  • OTMANN을 커널 ぷe^{- eta d^p}를 이용한 Optimal Transport 프로그램으로 공식화하여 Gaussian Process에 적용한다.
  • NASBOT를 구성한다: GP 사전분포와 EI 획득 함수를 사용하는 BO 방법으로, 획득 함수를 최적화하기 위한 진화 알고리즘을 포함한다.
  • 후보 아키텍처를 탐색하기 위한 돌연변이로 아키텍처 공간의 확대를 수행한다.
  • 대규모 탐색 공간으로 확장하기 위한 실용적 구현 및 확장 가능성에 대해 논의한다.

실험 결과

연구 질문

  • RQ1디스크리트 신경망 아키텍처에 대해 베이지안 최적화를 어떻게 효과적으로 수행할 수 있는가?
  • RQ2OTMANN을 이용한 NASBOT가 아키텍처 검색에서 RAND, EA, TreeBO를 능가하는가?
  • RQ3아키텍처 거리에 따른(OTMANN) 특성이 일반화 성능과 어떤 관계가 있는가?
  • RQ4NASBOT가 MLP와 CNN 탐색 공간 모두를 다루고 병렬 평가에 따라 확장될 수 있는가?

주요 결과

방법Blog (60K,281)Indoor (21K,529)Slice (54K,385)Naval (12K,17)Protein (46K,9)News (40K,61)Cifar10 (60K,3K)Cifar10 150K iterations
RAND0.780 \u00b1 0.0340.115 \u00b1 0.0230.758 \u00b1 0.0410.0103 \u00b1 0.0020.948 \u00b1 0.0240.762 \u00b1 0.0130.1342 \u00b1 0.0020.0914 \u00b1 0.008
EA0.806 \u00b1 0.0400.147 \u00b1 0.0100.733 \u00b1 0.0410.0079 \u00b1 0.0041.010 \u00b1 0.0380.758 \u00b1 0.0380.1411 \u00b1 0.0020.0915 \u00b1 0.010
TreeBO0.928 \u00b1 0.0530.168 \u00b1 0.0230.759 \u00b1 0.0790.0102 \u00b1 0.0020.998 \u00b1 0.0070.866 \u00b1 0.0850.1533 \u00b1 0.0040.1121 \u00b1 0.004
NASBOT0.731 \u00b1 0.0290.117 \u00b1 0.0080.615 \u00b1 0.0440.0075 \u00b1 0.0020.902 \u00b1 0.0330.752 \u00b1 0.0240.1209 \u00b1 0.0030.0869 \u00b1 0.004
  • NASBOT은 교차 검증 결과에서 RAND, EA, TreeBO 베이스라인을 여러 회귀 및 분류 데이터셋에서 일관되게 능가한다.
  • NASBOT은 보고된 실험에서 Blog, Indoor, Slice, Naval, Protein, News, CIFAR-10 등 여러 데이터셋에서 최상의 테스트 성능을 달성한다.
  • 이 접근법은 아키텍처 공간을 효율적으로 탐색하고 베이스라인에 비해 높은 성능 모델로의 수렴 속도를 빠르게 보여준다.
  • OTMANN 거리는 아키텍처 간의 의미 있는 유사도 평가를 제공하여 아키텍처 검색을 위한 GP 기반 BO를 효과적으로 가능하게 한다.
  • 저자들은 OTMANN 및 NASBOT의 Python 구현을 제공한다.
  • CIFAR-10에서 NASBOT은 강력한 테스트 성능을 보여주기 위해 추가로 학습된 경쟁력 있는 모델을 찾았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.