QUICK REVIEW

[논문 리뷰] Approximate Inference for Fully Bayesian Gaussian Process Regression

Vidhi Lalchand, Carl Edward Rasmussen|arXiv (Cornell University)|2019. 12. 31.

Gaussian Processes and Bayesian Inference참고 문헌 20인용 수 23

한 줄 요약

이 논문은 초과하나한 하이퍼파ram터 사후분포를 해결하기 위해 완전 베이지안 가우시안 프로세스 회귀를 위한 근사 추론 방법—해밀토니안 몬테카를로(HMC) 및 변분 추론(VI)—를 제안한다. 완전 베이지안 접근법이 타입 II 최대우도(ML-II)보다 더 나은 예측 성능을 보이며, HMC와 전단계 VI가 평균형태 VI 및 ML-II보다 벤치마크 데이터셋에서 뛰어난 성능을 보임을 입증한다.

ABSTRACT

Learning in Gaussian Process models occurs through the adaptation of hyperparameters of the mean and the covariance function. The classical approach entails maximizing the marginal likelihood yielding fixed point estimates (an approach called extit{Type II maximum likelihood} or ML-II). An alternative learning procedure is to infer the posterior over hyperparameters in a hierarchical specification of GPs we call extit{Fully Bayesian Gaussian Process Regression} (GPR). This work considers two approximation schemes for the intractable hyperparameter posterior: 1) Hamiltonian Monte Carlo (HMC) yielding a sampling-based approximation and 2) Variational Inference (VI) where the posterior over hyperparameters is approximated by a factorized Gaussian (mean-field) or a full-rank Gaussian accounting for correlations between hyperparameters. We analyze the predictive performance for fully Bayesian GPR on a range of benchmark data sets.

연구 동기 및 목표

가우시안 프로세스 회귀에서 비볼록성, 국소 최적점, 불확실성의 과소평가 문제로 인해 약화되는 타입 II 최대우도(ML-II)의 한계를 해결한다.
하이퍼파ram터와 잠재 함수에 대한 비가역적인 사후분포를 근사함으로써 하이퍼파ram터에 대한 완전 베이지안 추론을 가능하게 한다.
계층적 GP 프레임워크에서 HMC 및 VI와 같은 근사 추론 방법의 예측 성능와 불확실성 정량화를 기존의 ML-II와 비교한다.
약한 식별성 또는 평탄한 우도 표면이 존재할 경우 하이퍼파ram터의 불확실성이 예측 사후분포로 어떻게 전파되는지 조사한다.
ML-II의 점 추정치가 종종 열 劣한 국소 최적점에 위치해 있어 과적합과 일반화 성능 저하를 초래함을 입증한다. 특히 고차원 하이퍼파ram터 공간에서 두드러진다.

제안 방법

하이퍼파ram터와 잠재 함수에 대한 결합 사후분포에서 샘플을 추출하기 위해 No-U-Turn 샘플러(NUTS)를 활용한 해밀토니안 몬테카를로(HMC)를 사용하여 비가역적인 하이퍼파ram터 사후분포를 정확하게 근사한다.
하이퍼파라미터 사후분포에 대해 평균형태(분리된 가우시안) 및 전단계(공분산 인식) 근사를 적용한 변분 추론(VI)을 사용하여 근사된 사후분포와 진짜 사후분포 간의 KL 발산을 최소화한다.
하이퍼파라미터 사후분포를 근사하여 적분한 예측 분포를 가우시안 혼합모형으로 표현한다: $ p(f^*|y) \approx \frac{1}{M} \sum_{j=1}^M p(f^*|y, \theta_j) $, 여기서 $ \theta_j \sim p(\theta|y) $.
잠재 함수 값 $ f $ 에 대한 분석적 마진화를 활용하여 예측 사후분포를 하이퍼파라미터 사후분포의 함수로 줄이고, 이를 샘플링 또는 변분 최적화를 통해 근사한다.
HMC에 No-U-Turn 샘플러(NUTS)를 사용하여 무작위 걷기 행동을 방지하고 하이퍼파라미터 공간의 효율적 탐색을 보장하며, 수렴성은 R-hat와 효과적 샘플 수로 평가한다.
전단계 VI를 구현하여 하이퍼파라미터 간의 상관관계를 고려함으로써 평균형태 VI보다 정확도를 향상시킨다. 특히 고차원 또는 상관관계가 있는 하이퍼파라미터 공간에서 유의미한 개선이 이루어진다.

실험 결과

연구 질문

RQ1HMC 및 VI 기반 근사 추론 방법이 벤치마크 데이터셋에서 ML-II에 비해 예측 성능 측면에서 어떻게 비교되는가?
RQ2하이퍼파라미터에 대한 정확한 불확실성 정량화를 포함한 완전 베이지안 GP 회귀는 ML-II의 점 추정치에 비해 더 나은 일반화 성능을 보이는가?
RQ3HMC 및 VI에 의해 추정된 하이퍼파라미터 사후분포는 ML-II 추정치와 얼마나 다를까? 그리고 더 나은 국소 최적점에 위치하는가?
RQ4평균형태 VI와 전단계 VI의 선택이 하이퍼파라미터 사후분포 근사 정확도 및 예측 성능에 어떤 영향을 미치는가?
RQ5하이퍼파라미터 불확실성은 예측 사후분포에 어떤 영향을 미치며, 다양한 근사 방법은 이 전파를 얼마나 잘 포착하는가?

주요 결과

HMC와 전단계 VI는 CO2, Wine, Concrete 데이터셋 전반에서 ML-II 및 평균형태 VI보다 일관되게 뛰어난 예측 성능을 보이며, 더 낮은 테스트 로그 손실과 더 나은 불확실성 캘리브레이션을 제공한다.
ML-II 하이퍼파라미터 점 추정치는 열 劣한 국소 최적점에 위치해 있음을 입증되었으며, 이는 완전 베이지안 방법이 더 나은 예측과 높은 우도를 제공하기 때문이다.
평균형태 VI는 HMC 및 전단계 VI보다 좁은 사후분포 마진을 생성하여 불확실성의 과소평가를 나타내지만, 전단계 VI는 HMC 사후분포를 밀도 있게 근사한다.
완전 베이지안 방법 하에서 추정된 잡음 표준편차는 ML-II보다 높으며, 이는 ML-II가 잡음을 과소평가하고 과적합을 일으킬 수 있음을 시사한다. 특히 Airline 데이터셋에서 두드러진다.
HMC 수렴성은 R-hat 값이 1.0에 가까우며, 효과적 샘플 수가 높은 것으로 확인되었다(대부분의 파라미터에서 n_eff > 700), 이는 신뢰할 수 있는 사후 샘플링을 의미한다.
완전 베이지안 추론 하에서 예측 사후분포는 가우시안 혼합모형이며, HMC 및 VI를 통한 근사는 이 복잡한 비정규 분포 구조를 성공적으로 포착하여 모델 잘못설정에 대한 강건성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.