QUICK REVIEW

[논문 리뷰] Bayesian Deep Ensembles via the Neural Tangent Kernel

Bobby He, Balaji Lakshminarayanan|arXiv (Cornell University)|2020. 07. 11.

Gaussian Processes and Bayesian Inference참고 문헌 62인용 수 28

한 줄 요약

이 논문은 표준 딥 엔sembless 훈련을 수정하여 각 엔셈블리 멤버에 무작위로 생성되며 학습이 불가능한 함수를 추가함으로써 베이지안 딥 엔셈블즈를 제안한다. 이를 통해 신경미분기호 커널(NTK)을 통해 무한한 너비 근사에서 유효한 사후 예측 해석이 가능해지며, 표준 딥 엔셈블즈보다 더 보수적이고 불확실성 인식이 뛰어난 예측을 제공한다. 또한 회귀 및 분류 작업 전반에서 분석적 사후 예측 분포에 매우 가까이 근접하며, 분포 외 일반화 성능에서 기존 기준보다 뛰어나다.

ABSTRACT

We explore the link between deep ensembles and Gaussian processes (GPs) through the lens of the Neural Tangent Kernel (NTK): a recent development in understanding the training dynamics of wide neural networks (NNs). Previous work has shown that even in the infinite width limit, when NNs become GPs, there is no GP posterior interpretation to a deep ensemble trained with squared error loss. We introduce a simple modification to standard deep ensembles training, through addition of a computationally-tractable, randomised and untrainable function to each ensemble member, that enables a posterior interpretation in the infinite width limit. When ensembled together, our trained NNs give an approximation to a posterior predictive distribution, and we prove that our Bayesian deep ensembles make more conservative predictions than standard deep ensembles in the infinite width limit. Finally, using finite width NNs we demonstrate that our Bayesian deep ensembles faithfully emulate the analytic posterior predictive when available, and can outperform standard deep ensembles in various out-of-distribution settings, for both regression and classification tasks.

연구 동기 및 목표

강력한 경험적 성능에도 불구하고 현재는 그러한 기반 없이 존재하는 딥 엔셈블즈에 체계적인 베이지안 해석을 제공하는 것.
무한한 너비 근사에서 딥 엔셈블즈와 가우시안 프로세스(GPs) 간 격차를 신경미분기호 커널(NTK)을 통해 메우는 것.
표준 딥 엔셈블즈 훈련에 대해 계산적으로 실현 가능한 수정을 개발하여 NTK 영역에서 정확한 사후 샘플링을 가능하게 하는 것.
제안된 베이지안 딥 엔셈블즈가 표준 딥 엔셈블즈 및 기타 기준 대비 불확실성 캘리브레이션과 분포 외 일반화 능력을 향상시키는지 평가하는 것.
해석 가능한 사후 예측 분포가 존재할 경우, 특히 간단하고 넓은 아키텍처에서 이에 충실하게 모방하는지 입증하는 것.

제안 방법

각 기본 학습기의 최적화 과정에서 독립적으로 추출된 무작위이자 학습이 불가능한 함수로 정규화되는 수정된 딥 엔셈블즈 훈련 절차를 도입한다.
신경미분기호 커널(NTK) 프레임워크를 활용하여, 무한한 너비 근사에서 얻어진 엔셈블이 가우시안 프로세스(GP) 사후 예측 분포를 근사함을 보여준다.
NTK를 사용하여 수정된 엔셈블이 신경망 함수 $ f(\cdot, \bm{\theta}) $ 에 대해 유효한 사후 표본을 생성함을 증명함으로써 베이지안 추론을 가능하게 한다.
매개변수에 대한 선형성 가정(넓은 네트워크에서는 局부적으로 성립) 하에 NTK 영역에서 무작위 사전 분포를 활용하여 정확한 사후 샘플링을 달성한다.
MLP 및 CNN을 사용하여 회귀 및 분류 작업에 적용하고, 표준 딥 엔셈블즈 및 무작위 사전 기준 대비 예측 성능과 불확실성 캘리브레이션을 비교한다.
오차-신뢰도 및 예측 엔트로피 히스토GRAM을 사용하여 내부 분포 및 분포 외 데이터셋(NotMNIST 및 SVHN 포함)에서의 불확실성 캘리브레이션을 평가한다.

실험 결과

연구 질문

RQ1표준 딥 엔셈블즈 훈련에 대한 단순한 수정이 무한한 너비 근사에서 유효한 베이지안 사후 예측 해석을 가능하게 할 수 있는가?
RQ2제안된 베이지안 딥 엔셈블즈는 표준 딥 엔셈블즈 및 무작위 사전 기준 대비 불확실성 캘리브레이션과 분포 외 내성에 있어 어떻게 비교되는가?
RQ3해석 가능한 사후 예측 분포가 존재할 경우, 이 방법이 어느 정도 이를 모방하는가?
RQ4엔셈블 크기와 NTK 하이퍼파라미터가 예측 성능 및 불확실성 캘리브레이션에 미치는 영향은 어떠한가?
RQ5NTK 프레임워크를 사용하여 딥 엔셈블즈에 대해 체계적인 베이지안 해석을 유도할 수 있는가? 이는 오랫동안 미해결된 베이지안 딥 러닝 분야의 열린 질문을 해결하는 데 기여한다.

주요 결과

제안된 베이지안 딥 엔셈블즈는 분포 외 테스트 세트에서 표준 딥 엔셈블즈보다 유의미하게 낮은 오차를 기록하며, NotMNIST 데이터셋에서 신뢰도 임계값 $ \tau = 0.6 $ 에서 15%의 오차 감소를 보였다.
MNIST 대 NotMNIST 벤치마크에서 NTKGP 기반 엔셈블 방법은 내부 분포 및 분포 외 성능 모두에서 분석적 NTKGP 사후 예측 분포에 매우 가까이 부합하였다.
예측 엔트로피 히스토GRAM 분석 결과, 베이지안 딥 엔셈블즈는 분포 외 데이터에서 더 보수적인 예측을 내놓는 것으로 나타났으며, NotMNIST 및 SVHN에서 높은 엔트로피 값으로 이를 뒷받침했다.
특히 분포 외 일반화 작업에서 표준 딥 엔셈블즈 및 무작위 사전(RP) 기준 대비 불확실성 캘리브레이션에서 뛰어난 성능을 보였다.
작은 엔셈블 크기일지라도 베이지안 딥 엔셈블즈는 강력한 불확실성 캘리브레이션을 제공하며, 엔셈블 크기가 커질수록 분석적 사후 분포에 수렴하는 경향을 보였다.
이 방법은 라즈리 러닝 영역에서 가장 효과적이며, 확신 있는 예측이 해를 끼치지 않는 경우 표준 딥 엔셈블즈보다 성능이 열 劣할 수 있으나, NTK 하이퍼파라미터 조정을 통해 이를 완화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.