QUICK REVIEW

[논문 리뷰] Hyperparameter Transfer Learning with Adaptive Complexity

Samuel Horváth, Aaron Klein|arXiv (Cornell University)|2021. 02. 25.

Machine Learning and Data Classification인용 수 3

한 줄 요약

이 논문은 ABRAC을 제안하며, 중첩 드롭아웃과 자동 관련성 결정을 통해 순서화되고 비선형적인 기저 함수를 적응형 복잡도로 학습하는 다중 작업 베이지안 최적화 방법이다. 데이터 가용성에 따라 활성 기저 함수의 수를 동적으로 조정함으로써 ABRAC은 샘플 효율성을 향상시키고 계산 오버헤드를 감소시켜, 기존의 ABLR 및 GP 기반 BO 방법보다 하이퍼파라미터 튜닝 벤치마크에서 뛰어난 성능을 발휘한다.

ABSTRACT

Bayesian optimization (BO) is a sample efficient approach to automatically tune the hyperparameters of machine learning models. In practice, one frequently has to solve similar hyperparameter tuning problems sequentially. For example, one might have to tune a type of neural network learned across a series of different classification problems. Recent work on multi-task BO exploits knowledge gained from previous tuning tasks to speed up a new tuning task. However, previous approaches do not account for the fact that BO is a sequential decision making procedure. Hence, there is in general a mismatch between the number of evaluations collected in the current tuning task compared to the number of evaluations accumulated in all previously completed tasks. In this work, we enable multi-task BO to compensate for this mismatch, such that the transfer learning procedure is able to handle different data regimes in a principled way. We propose a new multi-task BO method that learns a set of ordered, non-linear basis functions of increasing complexity via nested drop-out and automatic relevance determination. Experiments on a variety of hyperparameter tuning problems show that our method improves the sample ef

연구 동기 및 목표

새로운 작업이 이전 작업보다 평가 수가 적은 순차적 하이퍼파라미터 튜닝 작업에서 데이터 제약 조건 간의 불일치를 해결한다.
현재 데이터 제약 조건에 맞게 이전 지식의 복잡도를 적응형으로 조정함으로써 다중 작업 베이지안 최적화의 샘플 효율성을 향상시킨다.
불변 복잡도를 가지는 가우시안 프로세스의 스케일러블한 대안을 개발하여 입체 스케일링을 피하면서도 불확실성 추정을 유지한다.
공유된 순서화된 기저 함수를 학습하고 동적 활성화를 통해 원칙적인 전이 학습을 가능하게 하여 관련된 하이퍼파라미터 튜닝 작업 간의 전이를 지원한다.
정규화와 자동 관련성 결정을 통한 활성 기저 함수 제한을 통해 신경망 기반 다중 작업 BO의 계산 오버헤드를 감소시킨다.

제안 방법

다양한 하이퍼파라미터 튜닝 작업 간에 비선형 기저 함수의 집합을 학습하기 위해 공유된 밀집 신경망을 사용한다.
최종 레이어에 중첩 드롭아웃을 적용하여 복잡도가 점차 증가하는 순서화된 기저 함수의 계층을 강제한다.
개별 작업의 목표를 모델링하기 위해 공유된 기저 함수 위에 작업별 베이지안 선형 회귀 헤드를 통합한다.
전이 학습 중에 활성 기저 함수의 수를 자동으로 결정하기 위해 자동 관련성 결정(ARD)을 활용한다.
예상 향상(예: EI)과 같은 획득 함수를 사전 모델에 적용하여 순차적이고 탐색-이용 방식으로 다음 하이퍼파라미터 설정을 선택한다.
관련 작업의 이전 데이터와 문맥 정보(예: 데이터셋 크기, 클래스 분포)를 사용해 최적화를 웜스타트하여 수렴 속도를 가속화한다.

실험 결과

연구 질문

RQ1순차적 하이퍼파라미터 튜닝 작업에서 다양한 데이터 제약 조건을 다루기 위해 다중 작업 베이지안 최적화는 어떻게 적응시킬 수 있는가?
RQ2중첩 드롭아웃과 자동 관련성 결정이 공유 기저 함수의 적응형 복잡도를 동시에 가능하게 할 수 있는가?
RQ3적응형 기저 함수 선택은 고정 복잡도 다중 작업 BO 방법에 비해 샘플 효율성을 얼마나 향상시키는가?
RQ4제안된 방법의 계산 오버헤드는 가우시안 프로세스 기반 및 신경망 기반 베이스라인과 비교해 어떻게 되는가?
RQ5이 방법은 합성, 표준형, 그리고 실제 SVM 벤치마크를 포함한 다양한 하이퍼파라미터 튜닝 문제에 대해 일반화 가능한가?

주요 결과

ABRAC는 모든 벤치마크에서 평균 순위 측면에서 ABLR 및 GP 기반 BO를 뛰어넘으며, 표준형 및 SVM 작업에서 뚜렷한 격차를 보였다.
OpenML-SVM 벤치마크에서 ABRAC는 우수한 AUC 성능을 달성했으며, 45회 반복 후 AUC 성능이 ABLR SGD 고정 모델과 유사한 유일한 방법이었다.
ABRAC는 ABLR 및 가우시안 프로세스 대비 계산 오버헤드를 100배 이상 감소시켜 대규모 하이퍼파라미터 튜닝에 매우 스케일러블하다.
파라미터화된 이차 함수 실험에서 ABRAC는 290개 점의 웜스타트 데이터가 있음에도 불구하고 MT-GP-BO를 포함한 모든 베이스라인을 뛰어넘는 일관된 성능을 보였다.
표준형 벤치마크에서 ABRAC는 네 개의 데이터셋 모두에서 평균 순위와 누적 손실 측면에서 최고의 성능을 기록했으며, 주어진 예산 내에서 랜덤 서치 및 기타 방법을 크게 능가했다.
이 방법은 활성 기저 함수를 제한함으로써 과적합을 효과적으로 방지한다 — 초기 반복에서 고차수 기저 함수에 대한 가중치가 거의 0에 가까운 것으로 나타났다. 반면 기존의 ABLR는 기저 함수 수가 과도하게 많아 과적합을 일으킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.