Skip to main content
QUICK REVIEW

[논문 리뷰] Random Feature Expansions for Deep Gaussian Processes

Kurt Cutajar, Edwin V. Bonilla|Graduate School and Research Center in Digital Science (EURECOM)|2016. 10. 14.
Gaussian Processes and Bayesian Inference참고 문헌 31인용 수 83
한 줄 요약

이 논문은 공분산 함수를 근사하기 위해 무작위 특징 전개를 사용하는 확장 가능한 딥 가우시안 프로세스(DGP) 프레임워크를 제안한다. 이는 스케일링 가능한 변분 추론을 가능하게 하여 효율적이고 확률론적인 학습을 실현한다. 이 방법은 MNIST8M(800만 개 샘플) 및 AIRLINE(500만 건의 항공기 운항)과 같은 대규모 데이터셋에서 최신 기술 수준의 성능을 달성하며, 최대 30층의 깊이를 갖는다. 기존의 DGP 및 DNN 기준선보다 정확도와 불확실성 측정에서 뛰어나며, GPU 없이도 단일 머신에서 효율적으로 실행된다.

ABSTRACT

The composition of multiple Gaussian Processes as a Deep Gaussian Process (DGP) enables a deep probabilistic nonparametric approach to flexibly tackle complex machine learning problems with sound quantification of uncertainty. Existing inference approaches for DGP models have limited scalability and are notoriously cumbersome to construct. In this work, we introduce a novel formulation of DGPs based on random feature expansions that we train using stochastic variational inference. This yields a practical learning framework which significantly advances the state-of-the-art in inference for DGPs, and enables accurate quantification of uncertainty. We extensively showcase the scalability and performance of our proposal on several datasets with up to 8 million observations, and various DGP architectures with up to 30 hidden layers.

연구 동기 및 목표

  • 대규모 및 깊은 아키텍처에서 딥 가우시안 프로세스(DGPs)의 확장성과 계산의 비가역성 문제를 해결하기 위해.
  • 불확실성 측정과 효율적인 훈련을 가능하게 하는 실용적인 확률론적 추론 프레임워크를 개발하기 위해.
  • 기존 DGP 추론 방법의 한계를 극복하기 위해, 일반적으로 얕은 네트워크에 국한되고 미니배치 확장성 부족을 보이는 방법들이다.
  • 무작위 특징 전개가 확률론적 깊은 신경망을 해석 가능한 사전 분포와 낮은 질량의 가중치 행렬을 갖도록 유도할 수 있음을 보여주기 위해.
  • 기존에 DGP에 대해 실현 가능하지 않다고 여겨졌던 수백만 건의 관측치를 포함한 데이터셋에서 깊은 확률 모델을 훈련할 수 있도록 하기 위해.

제안 방법

  • 모든 GP 레이어를 무작위 특징 전개(Rahimi & Recht, 2008)를 사용해 근사하여 공분산 함수를 명시적 특징 맵으로 변환한다.
  • 대규모 데이터셋에 대응하기 위해 미니배치 기반 기울기 최적화를 사용하는 스케일링 가능한 변분 추론(SVI)을 적용한다.
  • 무작위 특징를 구조적 사전 분포를 가진 잠재 변수로 간주하여 확률론적 공식화를 사용함으로써 베이지안 학습을 가능하게 한다.
  • 자동 미분을 텐서플로우에서 활용하여 SVI의 기울기를 계산함으로써 수동 도함수 유도를 피한다.
  • 무작위 특징를 통해 낮은 질량의 가중치 행렬을 적용하여, 설명 가능한 사전 분포를 갖는 DNN 유사 아키텍처를 구현한다.
  • 다른 특징 전개를 통해 RBF(삼각함수 활성화) 및 ARC-COSINE(ReLU 유사) 커널을 모두 지원한다.

실험 결과

연구 질문

  • RQ1무작위 특징 전개가 대규모 데이터셋에 대해 확장 가능하고 계산 가능한 추론을 딥 가우시안 프로세스에서 가능하게 할 수 있는가?
  • RQ2제안된 DGP와 무작위 특징은 정확도 및 불확실성 측정 측면에서 표준 DNN 및 다른 DGP 추론 방법과 비교해 어떻게 성능을 내는가?
  • RQ3이 프레임워크는 수백만 건의 관측치를 포함한 데이터셋에서 최대 30층의 깊은 아키텍처로 확장 가능한가?
  • RQ4무작위 특징와 함께 스케일링 가능한 변분 추론을 사용할 경우, DGP의 확률론적 성격을 유지하면서도 효율적인 훈련이 가능한가?
  • RQ5실제 대규모 회귀 및 분류 작업에서 최신 기술 수준의 GP 및 DNN 기준선과 비교해 이 모델의 성능은 어떠한가?

주요 결과

  • 제안된 DGP와 무작위 특징는 MNIST8M(800만 개 샘플)에서 테스트 정확도 99.14%를 달성했으며, AutoGP(99.11%)와 유사하고, 표준 DNN보다 불확실성 측정에서 뚜렷이 뛰어나다.
  • AIRLINE 데이터셋(500만 건의 항공기 운항)에서 모델은 정확도 78.1%와 0.457 MNLL을 기록했으며, Wilson 등(2016)의 최신 기술 수준의 GP 방법과 동일한 성능을 보였다.
  • AIRLINE 데이터셋에서 최대 30층의 모델 훈련이 2시간 이내에 수렴하여 확장성과 효율성을 입증했다.
  • 100개의 미니배치에 대한 박스 플롯을 통해 음의 하한 경계가 모델 선택에 신뢰할 수 있는 목적함수임을 확인했다.
  • 드롭아웃로 훈련된 DNN보다 불확실성 지표에서 뛰어난 성능을 보여, 더 나은 불확실성 측정 능력을 갖추고 있음을 시사한다.
  • GPU 없이도 경쟁 가능한 성능를 달성했으며, GPU 및 분산 컴퓨팅을 통해 향후 확장 가능하도록 설계되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.