QUICK REVIEW

[논문 리뷰] Learning to Warm-Start Bayesian Hyperparameter Optimization

Jungtaek Kim, Saehoon Kim|arXiv (Cornell University)|2017. 10. 17.

Machine Learning and Data Classification참고 문헌 27인용 수 23

한 줄 요약

이 논문은 깊이 있는 및 메타특징 추출기로 구성된 시아모이드 네트워크를 통해 데이터셋 메타특징을 학습함으로써 베이지안 하이퍼파rameter 최적화(BHO)의 웜스타트를 제안한다. 이 방법은 학습된 임bedding을 사용해 유사한 데이터셋을 식별하고, 그들의 이전 최적 하이퍼파ram터를 사용해 BHO를 초기화함으로써 평가 비용을 크게 감소시킨다. 이는 컨volutional 네트워크(CNN)를 사용한 여덟 개의 이미지 분류 데이터셋에서 개선된 수렴 성능을 통해 입증되었다.

ABSTRACT

Hyperparameter optimization aims to find the optimal hyperparameter configuration of a machine learning model, which provides the best performance on a validation dataset. Manual search usually leads to get stuck in a local hyperparameter configuration, and heavily depends on human intuition and experience. A simple alternative of manual search is random/grid search on a space of hyperparameters, which still undergoes extensive evaluations of validation errors in order to find its best configuration. Bayesian optimization that is a global optimization method for black-box functions is now popular for hyperparameter optimization, since it greatly reduces the number of validation error evaluations required, compared to random/grid search. Bayesian optimization generally finds the best hyperparameter configuration from random initialization without any prior knowledge. This motivates us to let Bayesian optimization start from the configurations that were successful on similar datasets, which are able to remarkably minimize the number of evaluations. In this paper, we propose deep metric learning to learn meta-features over datasets such that the similarity over them is effectively measured by Euclidean distance between their associated meta-features. To this end, we introduce a Siamese network composed of deep feature and meta-feature extractors, where deep feature extractor provides a semantic representation of each instance in a dataset and meta-feature extractor aggregates a set of deep features to encode a single representation over a dataset. Then, our learned meta-features are used to select a few datasets similar to the new dataset, so that hyperparameters in similar datasets are adopted as initializations to warm-start Bayesian hyperparameter optimization.

연구 동기 및 목표

유사한 데이터셋으로부터의 이전 지식을 활용해 베이지안 하이퍼파ram터 최적화(BHO)에서 비용이 많이 드는 검증 평가 횟수를 줄이기 위해.
하이퍼파ram터 전이를 위해 데이터셋 유사성을 포괄하는 효과적이고 일반화 가능한 메타특징을 학습하기 위해.
정확한 유사한 데이터셋 검색을 가능하게 하는 딥 메트릭 학습 프레임워크를 설계하기 위해.
가장 유사한 이전 데이터셋의 하이퍼파aram터로 초기화하여 BHO의 수렴을 향상시키기 위해.
하이퍼파라미터 웜스타트 맥락에서 다양한 메타특징 학습 아키텍처(AFD vs. Bi-LSTM)의 효과를 평가하기 위해.

제안 방법

쌍둥이 브랜치를 사용한 시아모이드 신경망 아키텍처를 사용하여 쌍별 데이터셋 비교를 수행함: 한 브랜치는 개별 데이터 인스턴스에서 깊이 특징을 추출하고, 다른 브랜치는 각 데이터셋에 대해 이 특징들을 집계하여 메타특징 벡터를 생성함.
학습된 메타특징 간 유클리드 거리와 데이터셋 간 목표 거리(예: 검증 오차 차이) 간의 차이를 최소화하도록 네트워크를 훈련함.
80개의 데이터셋에서 메타특징를 추출하고, 새로운 데이터셋에 대해 코사인 또는 유클리드 거리 기반으로 메타특징 공간에서 k개의 최근접 이웃을 식별함.
k개의 최근접 이웃 데이터셋에서 가장 우수한 성능을 보인 하이퍼파라미터 설정을 검색하여 BHO의 초기점으로 사용함으로써, 무작위 또는 준무작위 초기화를 대체함.
BHO 루프 내에서 Expected Improvement(EI) 및 GP-UCB와 같은 획득 함수를 활용하여 새로운 하이퍼파라미터를 반복적으로 선택함.
두 가지 유형의 시아모이드 네트워크를 평가함: 하나는 주목적 기반 융합(ADF)을 사용하고, 다른 하나는 양방향 LSTM(Bi-LSTM)을 사용하여 메타특징 융합함.

실험 결과

연구 질문

RQ1학습된 메타특징이 베이지안 최적화에서 하이퍼파라미터 웜스타트를 이끄는 데 있어 데이터셋 유사성을 효과적으로 측정할 수 있는가?
RQ2유사한 데이터셋의 하이퍼파라미터로 BHO를 초기화하면 무작위 초기화보다 평가 횟수가 줄어드는가?
RQ3다양한 메타특징 학습 아키텍처(예: ADF 대비 Bi-LSTM)는 하이퍼파라미터 웜스타트에서 성능 면에서 어떻게 비교되는가?
RQ4웜스타트가 다양한 이미지 데이터셋에서 CNN 하이퍼파라미터 튜닝의 수렴 속도와 최종 성능 향상에 얼마나 기여하는가?
RQ5제안된 방법은 다양한 획득 함수(EI 대비 GP-UCB)와 초기화 전략에 대해 강건한가?

주요 결과

대부분의 실험에서 Bi-LSTM 기반 메타특징 학습이 ADF 기반 학습보다 우수한 성능을 보이며, 더 나은 메타특징의 일반화 능력을 나타냄.
학습된 메타특징에서 유사한 데이터셋의 k-최근접 이웃을 사용한 초기화는 균일, 라틴 하이퍼큐브, 할턴 샘플링보다 더 빠른 수렴과 낮은 검증 오차를 달성함.
유사한 데이터셋의 이전 성능 데이터를 활용함으로써 BHO에서 요구되는 평가 횟수를 감소시켜 더 나은 최적화 효율성 달성함.
CIFAR-10, MNIST, CUB-200-2011 등 여덟 개의 이미지 데이터셋에서의 실험 결과, EI 및 GP-UCB 획득 함수 모두에서 일관된 성능 향상이 관찰됨.
학습된 메타특징은 하이퍼파라미터 지식의 효과적인 전이를 가능하게 하였으며, 유사한 데이터셋에서의 최고 성능 설정이 최적화의 강력한 초기점으로 기능함.
대조 손실을 사용해 훈련된 시아모이드 네트워크는 메타특징 거리와 실제 성능 차이 간의 격차를 효과적으로 최소화하여 메트릭 학습 목표의 타당성을 검증함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.