QUICK REVIEW

[논문 리뷰] Improving Output Uncertainty Estimation and Generalization in Deep Learning via Neural Network Gaussian Processes

Tomoharu Iwata, Zoubin Ghahramani|arXiv (Cornell University)|2017. 07. 19.

Gaussian Processes and Bayesian Inference인용 수 36

한 줄 요약

이 논문은 딥 네ural 네트워크(DNNs)와 가우시안 프로세스(GPs)를 융합한 하이브리드 모델을 제안한다. DNN을 GP의 평균 함수로 사용함으로써 정확한 출력 불확실성 추정과 향상된 일반화 성능을 달성한다. 이 방법은 스케일러블한 훈련을 위해 확률적 변분 추론과 확률적 경사 하강법을 활용하며, 실제 시간-공간 데이터셋에서 정확도와 불확실성 캘리브레이션 측면에서 단독 DNN과 GP보다 뛰어난 성능을 보인다.

ABSTRACT

We propose a simple method that combines neural networks and Gaussian processes. The proposed method can estimate the uncertainty of outputs and flexibly adjust target functions where training data exist, which are advantages of Gaussian processes. The proposed method can also achieve high generalization performance for unseen input configurations, which is an advantage of neural networks. With the proposed method, neural networks are used for the mean functions of Gaussian processes. We present a scalable stochastic inference procedure, where sparse Gaussian processes are inferred by stochastic variational inference, and the parameters of neural networks and kernels are estimated by stochastic gradient descent methods, simultaneously. We use two real-world spatio-temporal data sets to demonstrate experimentally that the proposed method achieves better uncertainty estimation and generalization performance than neural networks and Gaussian processes.

연구 동기 및 목표

안전 중심 응용 분야에서의 사용을 제한하는 딥 네럴 네트워크의 신뢰할 수 있는 출력 불확실성 추정 부족 문제를 해결하기 위해.
데이터가 적은 영역에서 가우시안 프로세스의 일반화 성능이 열악한 문제를 딥 네럴 네트워크의 표현 능력을 활용하여 해결하기 위해.
정확한 GP 추론이 불가능한 대규모 데이터셋에서의 훈련을 가능하게 하는 확장 가능한 추론 절차를 개발하기 위해.
딥 러닝의 특성(미래 입력에 대한 일반화 능력)과 가우시안 프로세스의 특성(탄력적인 국소 보간 및 불확실성 정량화)을 융합하기 위해.
실증적으로 제안된 하이브리드 모델이 단독 DNN과 GP보다 예측 정확도 및 불확실성 추정 측면에서 뛰어난 성능을 보이는지 확인하기 위해.

제안 방법

제안된 방법은 딥 네럴 네트워크를 가우시안 프로세스의 평균 함수로 사용하여, 데이터 기반의 탄력적인 평균 예측이 가능하도록 한다.
비선형 함수에 대해 가우시안 프로세스 사전분포를 적용함으로써 예측의 베이지안 추론과 불확실성 정량화를 가능하게 한다.
계산 복잡도를 줄이기 위해 유도점(inducing points)을 사용한 희소 가우시안 프로세스를 적용하여 대규모 데이터셋에 대한 확장성을 확보한다.
후행 분포를 근사하기 위해 확률적 변분 추론을 적용하여 미니배치 훈련을 가능하게 한다.
딥 네럴 네트워크의 파라미터와 커널 하이퍼파rameter를 동시에 최적화하기 위해 확률적 경사 하강법을 사용한다.
GP 추론 및 DNN 구성 요소를 통해 역전파를 통한 엔드 투 엔드 훈련을 지원한다.

실험 결과

연구 질문

RQ1딥 네럴 네트워크가 가우시안 프로세스의 평균 함수로 효과적으로 사용될 수 있는가? 이는 불확실성 추정을 향상시키는가?
RQ2딥 네럴 네트워크의 표현 능력과 가우시안 프로세스의 불확실성 정량화 능력을 융합하면, 미관측 데이터에 대한 일반화 성능이 향상되는가?
RQ3이러한 하이브리드 모델의 대규모 훈련을 지원할 수 있는 확장 가능한 추론 절차를 개발할 수 있는가?
RQ4제안된 방법은 단독 DNN과 GP에 비해 예측 정확도와 불확실성 캘리브레이션 측면에서 어떻게 비교되는가?
RQ5모델 아키텍처, 커널 선택, 유도점 수의 성능에 미치는 영향은 무엇인가?

주요 결과

USHCN 데이터셋에서 제안된 방법은 모든 누락 데이터 시나리오에서 가장 낮은 테스트 평균제곱오차(0.041)를 기록했으며, GP(0.054)와 NN(0.048) 기준선보다 뛰어났다.
CC 데이터셋에서 제안된 방법은 가장 우수한 불확실성 캘리브레이션 성능을 보였으며, 95% 신뢰수준에서 평균 커버리지(0.355)가 가장 높았고, GP(0.412)와 NN(0.364)보다 뛰어났다.
USHCN 데이터셋에서 90% 누락 데이터 조건 하에서 제안된 방법은 GP 대비 평균제곱오차를 최대 25% 감소시켰고, NN 대비 15% 감소시켰다.
데이터가 적은 영역에서도 높은 불확실성 캘리브레이션을 유지하였으며, CC 데이터셋에서 80% 누락 데이터 조건 하에서 95% 예측 구간이 진짜 값의 93.8%를 커버하였다.
제안된 방법의 계산 시간은 경쟁력 있었으며, USHCN에서 95% 누락 데이터 조건 하에서 1374초였고, GP는 1854초, NN은 226초였다.
모델은 누락 데이터에 뛰어난 내성성을 보였으며, 두 데이터셋에서 모두 50%, 80%, 95%의 모든 누락 수준에서 일관된 성능을 기록하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.