QUICK REVIEW

[논문 리뷰] Practical Multi-fidelity Bayesian Optimization for Hyperparameter Tuning

Jian Wu, Saul Toscano-Palmerin|arXiv (Cornell University)|2019. 03. 12.

Advanced Multi-Objective Optimization Algorithms인용 수 56

한 줄 요약

taKG 및 taKG_empty를 소개하고, 추적 가능한 지식-그래디언트 획득 함수로 다중 충실도 베이지안 최적화에서 하이퍼파라미터 튜닝의 효율성을 높이는 방법을 제시합니다.

ABSTRACT

Bayesian optimization is popular for optimizing time-consuming black-box objectives. Nonetheless, for hyperparameter tuning in deep neural networks, the time required to evaluate the validation error for even a few hyperparameter settings remains a bottleneck. Multi-fidelity optimization promises relief using cheaper proxies to such objectives --- for example, validation error for a network trained using a subset of the training points or fewer iterations than required for convergence. We propose a highly flexible and practical approach to multi-fidelity Bayesian optimization, focused on efficiently optimizing hyperparameters for iteratively trained supervised learning models. We introduce a new acquisition function, the trace-aware knowledge-gradient, which efficiently leverages both multiple continuous fidelity controls and trace observations --- values of the objective at a sequence of fidelities, available when varying fidelity using training iterations. We provide a provably convergent method for optimizing our acquisition function and show it outperforms state-of-the-art alternatives for hyperparameter tuning of deep neural networks and large-scale kernel learning.

연구 동기 및 목표

하이퍼파라미터 튜닝의 계산 부담을 더 저렴한 저충실도 평가를 사용하여 줄이는 것을 목표로 한다.
추적 정보와 다른 충실도 제어를 활용하는 유연한 획득 함수 개발.
수렴이 보장되는 최적화 방법을 제공하고 최첨단 기준선 대비 개선을 입증.
매우 낮은 충실도를 과도하게 강조하는 것을 피하고 배치 및 도함수 가능 설정을 지원하는 변형을 제공합니다.

제안 방법

x를 하이퍼파라미터로, s를 충실도 제어로 가지는 추적 충실도를 포함한 트레이스 충실도와 비추적 충실도를 포함하는 다충실도 GP 모델 g(x,s) 정의.
관찰 후 기대 손실 L_n을 도입하여 주어진 x에 대해 S 집합에서 g를 관찰함으로써의 개선을 정량화합니다.
taKG: 획득 함수로 VOI_n(x,S) = L_n(empty) - L_n(x,S) / 비용, S의 기수(cardinality) 제한.
near-zero fidelities에서 정보 가치가 사라지는 샘플링을 완화하기 위한 0-회피(zero-avoiding) 변형인 taKG_empty를 제공합니다.
L_n의 기울기에 대한 편향되지 않은 확률적 그래디언트 추정기를 개발하고 taKG 및 taKG_empty를 최적화하기 위해 다중 시작 확률적 그래디언트 상승법을 사용합니다.
추적 충실도에 대한 워엄 스타팅(warm-starting)과 평가 비용을 설명하기 위한 별도의 GP를 통한 비용 모델을 설명합니다.
폐쇄 형식의 획득 값을 갖지 않아도 효율적인 최적화를 논의하고, 배치 및 도함수 가능 설정으로 확장합니다.

실험 결과

연구 질문

RQ1훈련 및 설정 간의 추적 정보를 다중 충실도 베이지안 최적화에 효과적으로 어떻게 통합할 수 있는가?
RQ2다중 연속 충실도 간의 정보 이득과 비용을 효율적으로 균형짓는 보증 가능한 획득 함수를 설계할 수 있는가?
RQ3워밍 스타트 및 비용 모델링이 신경망 및 커널 학습의 다중 충실도 베이지안 최적화의 실질적 성능에 어떤 영향을 미치는가?
RQ4taKG 및 taKG_empty가 신경망 및 대규모 커널 학습에서 기존의 다중 충실도 및 단일 충실도 베이지안 최적화 방법보다 우수한가?
RQ5배치 평가 및 도함수 정보를 수용하여 효율성을 further 개선할 수 있는가?

주요 결과

taKG 및 taKG_empty가 FaBOLAS, Hyperband, BOCA와 같은 최첨단 기준선 대비 신경망 하이퍼파라미터 튜닝 및 대규모 커널 학습에서 성능 향상을 보인다.
다중 충실도와 추적 관찰을 사용하면 순차적 및 배치 설정에서 상당한 효율성을 얻을 수 있다.
획득 함수의 확률적-그래디언트 기반 최적화는 적절한 조건에서 수렴점에 도달한다.
0 회피 변형인 taKG_empty는 근처 0 충실도에서의 과도한 샘플링을 수동 비용 조정 없이도 완화한다.
추적 관찰이 없는 문제에도 적용 가능하며, 연속적 충실도가 사용될 때 여전히 강한 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.