QUICK REVIEW

[논문 리뷰] Stochastic Variational Deep Kernel Learning

Andrew Gordon Wilson, Zhiting Hu|arXiv (Cornell University)|2016. 11. 01.

Gaussian Processes and Bayesian Inference인용 수 104

한 줄 요약

SV-DKL을 도입하는 확장 가능한 깊은 커널 학습 프레임워크로, 분류, 다중 작업 학습 및 대규모 데이터에 대해 심층 네트워크와 가법 가우시안 프로세스 및 확률적 변분 추론을 결합합니다.

ABSTRACT

Deep kernel learning combines the non-parametric flexibility of kernel methods with the inductive biases of deep learning architectures. We propose a novel deep kernel learning model and stochastic variational inference procedure which generalizes deep kernel learning approaches to enable classification, multi-task learning, additive covariance structures, and stochastic gradient training. Specifically, we apply additive base kernels to subsets of output features from deep neural architectures, and jointly learn the parameters of the base kernels and deep network through a Gaussian process marginal likelihood objective. Within this framework, we derive an efficient form of stochastic variational inference which leverages local kernel interpolation, inducing points, and structure exploiting algebra. We show improved performance over stand alone deep networks, SVMs, and state of the art scalable Gaussian processes on several classification benchmarks, including an airline delay dataset containing 6 million training points, CIFAR, and ImageNet.

연구 동기 및 목표

표현력이 풍부하고 대규모 분류 문제에 대해 깊은 표현을 활용하는 확장 가능한 커널의 필요성을 동기화합니다.
깊은 네트워크 특징에 적용된 가법 기초 커널을 가진 깊은 커널 학습 모델을 제안합니다.
확장성을 위해 지역 커널 보간 및 유도 포인트를 활용하는 확률적 변분 추론 절차를 개발합니다.
주변 확률(주변 우도) objective를 통해 깊은 네트워크 파라미터, 기초 커널 하이퍼파라미터 및 혼합 행렬을 공동으로 학습합니다.

제안 방법

입력을 깊은 신경망을 통해 매핑하여 최종 계층 특징을 생성합니다.
기저 커널을 갖춘 J 가우시안 프로세스를 이 특징들 중의 부분 집합에 additive 커널 계층으로 적용합니다.
GP 출력은 혼합 행렬 A를 통해 선형으로 혼합되어 상관된 다중 작업 출력을 생성합니다.
GP 주변 가능도(maximize)를 사용하여 확률적 변분 추론 목표를 통해 모든 파라미터를 최적화합니다.
로컬 커널 보간과 Kronecker-구조 샘플러를 사용하여 확장 가능한 추론을 달성합니다.
구조를 활용하는 대수로 유도 변수에 대한 변분 포스트러를 빠르게 샘플링하는 방법을 제공합니다.

실험 결과

연구 질문

RQ1깊은 커널 학습 모델과 가법 GP가 대규모 데이터세트에서 분류 성능을 향상시킬 수 있는가?
RQ2확률적 변분 추론을 어떻게 설계하면 깊은 커널 방법을 수백만 개의 점에 맞춰 정확성을 희생하지 않고 확장할 수 있는가?
RQ3깊은 네트, 기저 커널 및 출력 혼합의 공동 학습이 다중 작업 상관관계를 효과적으로 포착하는가?
RQ4SV-DKL은 다양한 작업(Airline delays, UCI, 이미지 데이터)에 대해 독립 실행형 DNN 및 최첨단 확장 가능한 GP 방법과 비교하여 어떤 차이가 있는가?

주요 결과

SV-DKL은 여러 분류 벤치마크에서 독립적 심층 네트워크 및 확장 가능한 GP 베이스라인보다 우수한 성능을 보입니다.
이 접근 방식은 대형 데이터셋(예: ~5.9백만 포인트의 Airline delays)까지 확장 가능하며, 복잡도는 O(m1+1/D)로 유도 포인트 m과 입력 차원 D에 의해 결정됩니다.
깊은 특징, 기저 커널 및 혼합 행렬의 공동 학습은 비엔드투엔드 또는 단일 구성 요소 모델에 비해 예측 성능을 향상시킵니다.
경험적 결과는 SV-DKL이 KLSP-GP 및 기타 확장 가능한 GP 방법과 비교하여 경쟁력 있는 또는 우수한 정확성을 제공하며, 이미지 작업에서는 종종 CNN 기반 접근법보다 우수합니다.
모델은 혼합 행렬 A를 통해 해석 가능한 깊은 공분산 구조 및 다출력 상관관계를 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.