QUICK REVIEW

[논문 리뷰] Hyperparameters Optimization in Deep Convolutional Neural Network / Bayesian Approach with Gaussian Process Prior

P. P. Murugan|arXiv (Cornell University)|2017. 12. 19.

Machine Learning and Data Classification참고 문헌 17인용 수 32

한 줄 요약

이 논문은 깊이 합성곱 신경망에서 초파rameter를 효율적으로 튜닝하기 위해 가우시안 프로세스를 사용하는 베이지안 최적화 프레임워크를 제안한다. 목적 함수를 확률적 GP 사전분포로 모델링하고, 기대 개선도와 같은 취득 함수를 사용하여 탐색과 이용의 균형을 이루며, 격자 검색이나 무작위 검색보다 평가 횟수를 줄여 최적의 초파rameter를 찾는다.

ABSTRACT

Convolutional Neural Network is known as ConvNet have been extensively used in many complex machine learning tasks. However, hyperparameters optimization is one of a crucial step in developing ConvNet architectures, since the accuracy and performance are reliant on the hyperparameters. This multilayered architecture parameterized by a set of hyperparameters such as the number of convolutional layers, number of fully connected dense layers & neurons, the probability of dropout implementation, learning rate. Hence the searching the hyperparameter over the hyperparameter space are highly difficult to build such complex hierarchical architecture. Many methods have been proposed over the decade to explore the hyperparameter space and find the optimum set of hyperparameter values. Reportedly, Gird search and Random search are said to be inefficient and extremely expensive, due to a large number of hyperparameters of the architecture. Hence, Sequential model-based Bayesian Optimization is a promising alternative technique to address the extreme of the unknown cost function. The recent study on Bayesian Optimization by Snoek in nine convolutional network parameters is achieved the lowerest error report in the CIFAR-10 benchmark. This article is intended to provide the overview of the mathematical concept behind the Bayesian Optimization over a Gaussian prior.

연구 동기 및 목표

고차원 초파라미터 공간에서 격자 검색과 무작위 검색의 비효율성을 해결하기 위해.
깊이 합성곱 신경망에서 초파라미터 튜닝을 위한 체계적인 베이지안 최적화 접근법을 개발하기 위해.
가우시안 프로세스 기반의 베이지안 최적화를 위한 종합적인 이론적 기반을 제공하기 위해.
블랙박스 초파라미터 최적화에서 탐색과 이용의 효과적인 트레이드오프를 가능하게 하기 위해.

제안 방법

모르는 목적 함수에 대해 가우시안 프로세스(GP)를 사전분포로 사용하여 불확실성을 모델링하기 위해.
각 평가 후 사후 신뢰도를 갱신하는 확률적 대체 모델을 사용하기 위해.
기대 개선도와 같은 취득 함수를 적용하여 탐색과 이용의 균형을 이루기 위해.
다음 초파라미터 설정을 평가하기 위해 취득 함수를 최대화하기 위해.
제곱 지수와 같은 커널 함수를 사용하여 GP 공분산과 매끄러움을 정의하기 위해.
순차적 최적화: 반복적으로 쿼리, 사후분포 갱신, 검색 개선을 수행하기 위해.

실험 결과

연구 질문

RQ1베이지안 최적화와 가우시안 프로세스를 사용할 경우, 초파라미터 튜닝에서 격자 검색이나 무작위 검색보다 어떻게 우수한가?
RQ2GP 기반 최적화에서 기대 개선도 취득 함수의 수학적 표현은 무엇인가?
RQ3베이지안 최적화에서 탐색-이용 트레이드오프는 어떻게 수식화되고 제어되는가?
RQ4GP 사전분포는 목적 함수에 대한 불확실성을 어떻게 모델링하는가?
RQ5이 방법은 딥러닝의 고차원 초파라미터 공간에 어떻게 스케일링되는가?

주요 결과

GP 사전분포를 사용한 베이지안 최적화로 인해, 격자 검색이나 무작위 검색보다 최적의 초파라미터를 찾는 데 필요한 평가 횟수가 크게 감소한다.
기대 개선도 취득 함수는 불확실성이 높은 영역을 탐색하고 성능 예측이 높은 영역을 이용하는 데 있어 체계적인 트레이드오프를 제공한다.
Snoek 등 이전 연구에서 보여준 바와 같이, CIFAR-10과 같은 벤치마크 작업에서 최첨단 성능을 달성한다.
GP 사전분포의 사용은 고비용의 블랙박스 환경에서 신뢰할 수 있는 최적화에 필수적인 잘 校정된 불확실성 추정을 가능하게 한다.
복잡한 아키텍처에서 수백 개의 초파라미터를 포함하더라도 이 프레임워크는 확장 가능하고 효과적이다.
이론적 수식은 향상된 최적화 효율성을 위한 1단계 및 다단계 라이드오프 전략을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.