QUICK REVIEW

[논문 리뷰] Hyperparameter Ensembles for Robustness and Uncertainty Quantification

Florian Wenzel, Jasper Snoek|arXiv (Cornell University)|2020. 06. 24.

Advanced Neural Network Applications참고 문헌 57인용 수 34

한 줄 요약

논문은 weight와 hyperparameter diversity를 결합하여 로버스트함과 불확실성 추정을 향상시키기 위해 hyperparameter ensembles를 제안한다. 여기에는 hyper-deep ensembles와 hyper-batch ensembles가 포함되며, deep 및 batch ensembles를 능가하는 효율적인 구현을 제공한다.

ABSTRACT

Ensembles over neural network weights trained from different random initialization, known as deep ensembles, achieve state-of-the-art accuracy and calibration. The recently introduced batch ensembles provide a drop-in replacement that is more parameter efficient. In this paper, we design ensembles not only over weights, but over hyperparameters to improve the state of the art in both settings. For best performance independent of budget, we propose hyper-deep ensembles, a simple procedure that involves a random search over different hyperparameters, themselves stratified across multiple random initializations. Its strong performance highlights the benefit of combining models with both weight and hyperparameter diversity. We further propose a parameter efficient version, hyper-batch ensembles, which builds on the layer structure of batch ensembles and self-tuning networks. The computational and memory costs of our method are notably lower than typical ensembles. On image classification tasks, with MLP, LeNet, ResNet 20 and Wide ResNet 28-10 architectures, we improve upon both deep and batch ensembles.

연구 동기 및 목표

Weights 다양성(random initialization)과 hyperparameter 다양성의 결합이 robustness와 불확실성 정량화에 미치는 이점을 조사한다.
두 가지 앙상블 패러다임을 개발한다: hyper-deep ensembles(예산에 구애받지 않는 성능)와 hyper-batch ensembles(파라미터 효율적 성능).
실용적인 알고리즘을 제안하여 hyperparameter search를 앙상블 구성과 통합하고 이미지 분류 작업에서 실험적 이득을 평가한다.

제안 방법

hyper-deep ensembles를 제시하는데, hyperparameter에 의해 구동되는 모델들의 행을 계층화하고, 이를 임의 초기화와 층합시켜 두 축의 다양성(하이퍼파라미터와 초기화)을 만들어낸다.
self-tuning networks를 활용해 계층 구조를 조합하여 weight와 hyperparameter 다양성을 단일 학습 절차에서 가능하게 하는 batch ensembles를 확장한다.
그리디 앙상블 구성(hyper_ens)을 사용해 random-search 결과에서 모델을 선택하고, 가중치를 위해 교체를 허용하는 앙상블을 형성한다.
각 앙상블 구성원을 rank-1 분해와 hyper-parameter 임베딩( self-tuning networks와 같은 방식)으로 가중치를 조정하는 hyperparameter-조건부 계층으로 모델링한다.
하이퍼파라미터 분포에 대한 기대 목표를 최적화하는 방식으로 앙상블을 학습하고, 수렴을 방지하기 위한 엔트로피 항(식(4)-(6))과 교대 학습 및 튜닝 단계를 사용한다.
hyper-batch ensembles의 경우 각 구성원의 가중치를 W_k(lambda_k)와 b_k(lambda_k)로 매개화하고, 공유 W, Delta, r_k, s_k, e(lambda_k) 등의 파라미터를 사용하여 효율적인 병렬 미니배치를 가능하게 한다(식(7)-(9)).

실험 결과

연구 질문

RQ1가중치 다양성(random initialization)과 hyperparameter 다양성의 결합이 기존의 딥 엔 ensembles를 능가하는가?
RQ2hyper-deep ensembles와 hyper-batch ensembles가 아키텍처와 데이터셋 전반에서 로버스트니스와 불확실성 정량화의 이점을 제공하는가?
RQ3제안된 하이퍼파라미터 인지층을 메모리 및 연산 이점을 보존하면서 효율적으로 학습시킬 수 있는가?
RQ4엔트로피 정규화를 사용하는 하이퍼파라미터 분포가 앙상블 성능과 보정에 어떤 영향을 미치는가?
RQ5표준 이미지 분류 벤치마크에서 두 제안 체계의 실험적 이득은 무엇인가?

주요 결과

Hyper-deep ensembles는 하이퍼파라미터와 초기화 다양성을 모두 활용함으로써 표준 딥 엔스탬블보다 일관되게 우수한 성능을 보인다.
Hyper-batch ensembles는 batch ensembles와 self-tuning networks보다 우수하며, 파라미터 효율적이고 규모에 맞는 앙상블 다양성 경로를 제공한다.
두 방법 모두 Fashion-MNIST, CIFAR-100, CIFAR-10/100에서 MLP, LeNet, ResNet-20, Wide ResNet-28-10에 걸쳐 예측 성능 및 불확실성 지표를 개선한다.
이전의 효율적인 앙상블 방법들과 메모리 발자국을 비교했을 때도 효율적인 미니배칭이 유지되며 하이퍼파라미터 다양성을 가능하게 한다.
하이퍼파라미터를 초기화와 함께 계층화하는 것이 기초선 대비 더 다양한 예측과 보정(ECE)을 향상시킨다는 실험 결과가 나타난다.
이 방법들은 특정 분야에 바로 적용 가능한 대체 솔루션으로 설계되었고 구현 및 재현을 위한 공개 코드가 제공된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.