[논문 리뷰] Doubly Stochastic Variational Inference for Deep Gaussian Processes
두 번의 확률적 변분 추론을 갖는 이중 확률적 변분 추론(doubly stochastic variational inference) 방법을 Deep Gaussian Processes(DGPs)에 도입하여 층 간 상관을 보존하고, 수백에서 수십억 포인트의 데이터셋에 대해 확장 가능한 학습을 가능하게 하며 단일 층 GP 및 여러 베이스라인보다 성능을 개선한다.
Gaussian processes (GPs) are a good choice for function approximation as they are flexible, robust to over-fitting, and provide well-calibrated predictive uncertainty. Deep Gaussian processes (DGPs) are multi-layer generalisations of GPs, but inference in these models has proved challenging. Existing approaches to inference in DGP models assume approximate posteriors that force independence between the layers, and do not work well in practice. We present a doubly stochastic variational inference algorithm, which does not force independence between layers. With our method of inference we demonstrate that a DGP model can be used effectively on data ranging in size from hundreds to a billion points. We provide strong empirical evidence that our inference scheme for DGPs works well in practice in both classification and regression.
연구 동기 및 목표
- 층 간의 독립 가정으로 인해 발생하는 깊은 가우시안 프로세스(DGPs) 추론의 한계를 동기 부여하고 해결한다.
- 계산 가능성을 가능하게 하면서도 층 간 상관 관계를 유지하는 변분 후방을 개발한다.
- 확률적 최적화 및 미니배치 처리에 의해 대규모 데이터셋에 대한 확장성을 달성한다.
- 회귀 및 분류 작업에서 단일 층 GP 및 다른 베이스라인에 비해 DGP의 경험적 성능 향상을 입증한다.
제안 방법
- 각 층 내에서 차원 축소를 위한 희소 유도 포인트 변분 프레임워크를 채택하여 계산 가능성을 달성하고, 유도 포인트에 조건화함으로써 층 간 상관관계를 보존한다.
- 층 간에 인수분해되지만 유도 포인트에 조건화된 정확한 모델을 유지하는 변분 후방을 사용하여 엔드투엔드 샘플링이 가능한 시퀀스적인 구성을 달성한다.
- q(U^l)를 평균 m^l 및 공분산 S^l를 갖는 가우시안으로 표현하고 분석적으로 주변화하여 F^l에 대해 완전히 결합되지만 샘플링 가능한 포스터를 얻는다.
- 세 부분으로 된 포스터 구조를 사용한다: (i) p(F^l|U^l; F^{l-1}, Z^{l-1}); (ii) q(U^l) = N(m^l, S^l); (iii) 1변량 가우시안을 사용한 재매개화 트릭을 통해 층을 따라 샘플링을 unfolding하는 방법으로 샘플을 얻는다.
- 층 간 샘플링을 위한 변분 후방에서 몬테카를로 샘플링과 확장 가능성을 위한 미니배치 기반 데이터 서브샘플링을 사용하는 이중 확률적 증거 하한(Evidence Lower Bound)을 도출한다.
- 시험 입력에서 변분 후방으로부터 샘플링하여 예측을 제공하고, q(f_*^L)을 다중 샘플을 통해 가우시안 혼합으로 근사한다.
실험 결과
연구 질문
- RQ1DGP에 대한 변분 후방이 층 간 의존성을 보존하도록 할 수 있으며 층 간 독립을 가정하지 않아도 될까?
- RQ2희소 유도 포인트를 유지하면서 층 간 상관을 보존하면 대규모 데이터에서 DGP의 확장 가능 추론이 가능해질까?
- RQ3다층 DGP가 회귀 및 분류 벤치마크에서 단일 층 GP보다 경험적으로 개선을 제공하는가, 대규모 데이터셋 포함?
- RQ4제안된 이중 확률적 접근의 계산적 트레이드오프(시간 및 메모리)는 기존 DGP 추론 방법과 비교해 어떤가?
주요 결과
- 제안된 이중 확률적 변분 추론은 층 간 상관을 보존하고 매우 큰 데이터에도 규모에 맞게 확장되며 여러 작업에서 단일 층 GP보다 개선을 달성한다.
- 회귀 벤치마크에서 더 깊은 DGP(2–5 층)가 동일한 혹은 더 많은 유도 포인트를 가진 희소 GP 베이스라인보다 자주 우수하며 때로는 최상의 베이스라인의 성능에 도달하거나 이를 능가한다.
- 대규모 회귀 및 분류 데이터셋에서 더 깊은 DGP가 얕은 모델에 비해 일관되게 성능을 향상시키며, 매우 큰 데이터셋에서 두드러진 이득이 나타난다(예: taxi, MNIST, HIGGS, SUSY).
- MNIST의 경우 두 층 및 세 층 DGP가 테스트 정확도를 각각 97.48%(단일 층)에서 98.06% 및 98.11%로 개선했다.
- 이 방법은 최대 5층까지의 DGP 학습을 가능하게 하며 대규모 작업에서 SGP 대비 RMSE가 크게 개선되는 것을 보여준다(예: 1B 포인트의 taxi).
- 구현이 간결(<200줄 이내)이며 GPflow와 통합되어 실용적 채용이 용이하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.