QUICK REVIEW

[논문 리뷰] Scalable Log Determinants for Gaussian Process Kernel Learning

Kun Dong, David Eriksson|arXiv (Cornell University)|2017. 11. 09.

Gaussian Processes and Bayesian Inference참고 문헌 21인용 수 26

한 줄 요약

이 논문은 빠른 행렬-벡터 곱셈(MVMs)만을 사용하여 큰 양의 정부호 커널 행렬의 로그 행렬식과 그 도함수를 추정하기 위한 새로운 O(n) 스토하스틱 방법—체비셰프, 랭크조, 그리고 서rogate 기반 방법—을 제안한다. 이 방법은 다양한 설정, 특히 비정규 분포 우도와 복잡한 커널을 포함한 스케일러블한 가우시안 프로세스 커널 학습을 가능하게 하며, 랭크조 방법이 체비셰프 방법보다 뛰어난 성능을 보인다. 서rogate 모델은 높은 효율성과 정확도를 제공한다.

ABSTRACT

For applications as varied as Bayesian neural networks, determinantal point processes, elliptical graphical models, and kernel learning for Gaussian processes (GPs), one must compute a log determinant of an $n imes n$ positive definite matrix, and its derivatives - leading to prohibitive $\mathcal{O}(n^3)$ computations. We propose novel $\mathcal{O}(n)$ approaches to estimating these quantities from only fast matrix vector multiplications (MVMs). These stochastic approximations are based on Chebyshev, Lanczos, and surrogate models, and converge quickly even for kernel matrices that have challenging spectra. We leverage these approximations to develop a scalable Gaussian process approach to kernel learning. We find that Lanczos is generally superior to Chebyshev for kernel learning, and that a surrogate approach can be highly efficient and accurate with popular kernels.

연구 동기 및 목표

가우시안 프로세스 커널 학습에서 O(n³)의 로그 행렬식 및 도함수 계산의 계산적 병목 현상을 해결한다.
기존 방법들이 고유분해나 균일한 고유스펙트럼을 가정하는 데 의존하는 점을 극복하며, RBF와 같은 일반적인 기계학습 커널에서는 이러한 가정이 타당하지 않음을 고려한다.
빠른 행렬-벡터 곱셈(MVMs)만을 사용하여 일반적이고 스케일러블하며 정확한 로그 행렬식 및 도함수 추정 방법을 개발한다.
예를 들어 가수성 커널, 다중 작업 학습, 대각 보정 등에서 빠른 고유분해가 불가능한 설정에서도 커널 학습을 가능하게 한다.
비정규 분포 우도와 복잡한 커널 구조를 포함한 대규모 데이터셋에서 높은 성능을 달성하며, 딥 커널을 포함한 고차원 커널 학습에도 적용 가능하다.

제안 방법

몬테카를로 샘플링을 통한 MVMs 기반의 스토하스틱 체비셰프 및 랭크조 방법을 제안하여 로그 행렬식과 그 도함수를 추정한다.
MVMs에서 로그 행렬식 함수를 학습하는 서rogate 모델 접근법을 도입하여 재계산 최소화로 빠르고 정확한 추정을 가능하게 한다.
임의의 데이터 위치에서 대규모 데이터셋에 스케일링하기 위해 구조적 커널 인터폴레이션(SKI) 프레임워크에서 유도된 빠른 MVMs를 활용한다.
동일한 MVMs를 동시에 사용하여 로그 행렬식과 그 도함수를 계산함으로써 계산 오버헤드를 감소시킨다.
오차 분석을 수행하고 최적화 수렴 성능 향상을 위해 고차 도함수로의 확장을 수행한다.
제안된 방법을 GP 마진널 우도 최적화에 통합하여 고유분해 없이 기반 기반 커널 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1빠른 행렬-벡터 곱셈(MVMs)만을 사용하여 대규모 n에 대해 로그 행렬식 및 도함수 추정을 스케일러블하게 수행할 수 있는가?
RQ2스펙트럼이 도전적인 경우, 스토하스틱 체비셰프 및 랭크조 방법의 정확도와 효율성은 어떻게 비교되는가?
RQ3고유분해가 불가능한 설정에서 MVMs 기반으로 훈련된 서rogate 모델이 정확하고 빠른 로그 행렬식 추정을 제공할 수 있는가?
RQ4Fiedler 경계가 잘못 지정된 비정규 분포 우도 설정에서 제안된 방법이 스케일링된 고유값 접근법보다 우수한가?
RQ5수천 개의 초모수와 대규모 데이터셋을 포함한 고차원 딥 커널 학습에 대해 이 방법이 스케일러블한가?

주요 결과

특히 불안정하거나 급격히 감소하는 스펙트럼을 가진 경우, 랭크조 기반 방법이 체비셰프 방법보다 정확도와 수렴 속도 면에서 뛰어나다.
157,644개의 데이터 포인트를 가진 시카고 폭력 사건 데이터셋에서, 랭크조 방법은 RMSE=1.33, σ²=69.72를 달성했고, 스케일링된 고유값 방법은 훨씬 큰 σ²=191.17을 기록하여 모델의 잘못된 특정화를 시사한다.
랭크조 방법은 초모수 복원에 264초가 소요되었고, 스케일링된 고유값 방법은 67초 밖에 걸리지 않았지만, 유의미하게 다른 결과를 도출하며 신뢰성이 떨어졌다.
128차원의 가스 센서 데이터셋(n=2,565)에서의 딥 커널 학습에서, 랭크조 방법은 DNN 베이스라인(0.1366)보다 낮은 RMSE(0.1053)를 달성했고, 반복당 시간은 2.07초로 더 오래 걸렸지만 총 소요 시간은 더 높았다.
서rogate 모델 접근법은 특히 일반적인 커널과 빠른 MVMs에서 매우 높은 정확도와 효율성을 제공했다.
SKI와 결합할 경우 O(n + g(m))의 복잡도를 확보하여, n=528,474개의 훈련 포인트를 포함한 대규모 문제에 대한 스케일러블한 GP 커널 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.