QUICK REVIEW

[논문 리뷰] Tabular Benchmarks for Joint Architecture and Hyperparameter Optimization

Aaron Klein, Frank Hutter|arXiv (Cornell University)|2019. 05. 13.

Machine Learning and Data Classification참고 문헌 25인용 수 33

한 줄 요약

이 논문은 고정된 두 계층 피드포워드 네트워크를 네 가지 회귀 데이터셋에 걸쳐 전수 평가하여 저비용의 표 형태 벤치마크를 제공하고, HPO 방법의 견고하고 재현 가능한 비교를 가능하게 한다.

ABSTRACT

Due to the high computational demands executing a rigorous comparison between hyperparameter optimization (HPO) methods is often cumbersome. The goal of this paper is to facilitate a better empirical evaluation of HPO methods by providing benchmarks that are cheap to evaluate, but still represent realistic use cases. We believe these benchmarks provide an easy and efficient way to conduct reproducible experiments for neural hyperparameter search. Our benchmarks consist of a large grid of configurations of a feed forward neural network on four different regression datasets including architectural hyperparameters and hyperparameters concerning the training pipeline. Based on this data, we performed an in-depth analysis to gain a better understanding of the properties of the optimization problem, as well as of the importance of different types of hyperparameters. Second, we exhaustively compared various different state-of-the-art methods from the hyperparameter optimization literature on these benchmarks in terms of performance and robustness.

연구 동기 및 목표

현실적이면서도 저비용인 벤치마크로 HPO 방법의 경험적 평가를 촉진한다.
다양한 구성으로 이루어진 큰 그리드 전반에 걸쳐 최적화 문제의 특성을 파악한다.
신경망 튜닝에서 아키텍처 하이퍼파라미터와 학습 하이퍼파라미터의 중요성을 평가한다.
표준화된 벤치마크에서 다양한 최신 HPO 방법을 비교한다.
신경 HPO/NAS 연구에서 재현 가능한 실험을 가능하게 하는 데이터와 코드를 제공한다.

제안 방법

네 가지 아키텍처 선택과 다섯 가지 학습/하이퍼파라미터를 가진 이층 피드포워드 신경망의 구성으로 큰 그리드를 구성하여, 이산화 후 62,208개의 구성을 산출한다.
각 구성을 네 가지 UCI 회귀 데이터셋(protein, slice, naval, Parkinson)에 대해 60/20/20의 train/val/test 분할로 학습시키고, 특징과 목표를 정규화한다.
각 구성을 서로 다른 시드로 네 번 반복하고, 에폭별로 학습/검증/테스트 오차, 학습 시간, 매개변수 수를 기록한다.
ECDF, 예산 간 Spearman 상관, 그리고 전역 중요도와 쌍별 상호작용에 대한 fANOVA를 사용하여 데이터셋 특성과 하이퍼파라미터 중요도를 분석한다.
여러 HPO 방법(랜덤 탐색, SMAC, TPE, Bohamiann, Regularized Evolution, Hyperband/BOHB, RL)을 각 방법당 500회의 독립 실행으로 벤치마크하고, 후회율과 강건성을 보고한다.

실험 결과

연구 질문

RQ1벤치마크 데이터세트가 포착하는 HPO/NAS 탐색 공간의 경험적 특성과 난이도는 무엇인가?
RQ2어떤 하이퍼파라미터(및 상호작용)가 데이터셋 전반에 걸친 최종 성능에 가장 큰 영향을 미치는가?
RQ3다른 HPO 방법들의 성능은 어떠하며 이 표 형식 벤치마크에서의 강건성은 어떤가?
RQ4예산과 데이터셋 간에 구성의 순위가 안정적으로 유지되어 다중 적합도 최적화를 가능하게 하는가?
RQ5이 벤치마크가 HPO 방법의 재현 가능한 평가와 공정한 비교를 지원할 수 있는가?

주요 결과

구성 간 최종 오차에 상당한 변동성이 있으며, 일부는 낮은 MSE를 달성하고 많은 이상치가 훨씬 높은 오차를 보인다.
초기 학습률은 평균적으로 매우 중요한 하이퍼파라미터이지만 공간의 일부 영역에서는 고차 상호작용이 더 큰 지배력을 보인다.
현 구성이 일부 하이퍼파라미터 전환에 대해 강건성의 취약성을 보이며, 활성화 선택(relu vs tanh)이 특히 영향력이 큰 것으로 나타났다.
최상의 구성은 데이터셋 간에 큰 차이는 아니지만, 일부 매개변수(예: 초기 LR)가 모든 데이터셋에서 일관되게 효과적이다.
베이지안 최적화 방법과 다변량 접근법(BOHB)이 초기에는 랜덤 탐색보다 우수하고, 이후 수렴은 내부 모델에 따라 다르게 나타난다; 강화학습은 최종 성능이 최고가 될 수 있지만 샘플 효율이 낮고, 강화 기반 방법과 Bohamiann은 강건성에서 트레이드오프를 보인다.
모든 구성을 고려할 때 데이터셋 간 구성 순위는 상관되지만, 상위 성능자에 한정하면 상관이 약해져 다-task 데이터 활용의 가치가 시사된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.