[논문 리뷰] GPyTorch: Blackbox Matrix-Matrix Gaussian Process Inference with GPU Acceleration
BBMM 추론을 도입한, 배치된 수정된 켤레 기울법과 GPU 가속을 사용하는 가우시안 프로세스의 블랙박스 매트릭스-매트릭스 접근법으로, PyTorch 기반 프레임워크(GPyTorch)로 더 빠른 정확 및 근사 GP 추론을 가능하게 한다.
Despite advances in scalable models, the inference tools used for Gaussian processes (GPs) have yet to fully capitalize on developments in computing hardware. We present an efficient and general approach to GP inference based on Blackbox Matrix-Matrix multiplication (BBMM). BBMM inference uses a modified batched version of the conjugate gradients algorithm to derive all terms for training and inference in a single call. BBMM reduces the asymptotic complexity of exact GP inference from $O(n^3)$ to $O(n^2)$. Adapting this algorithm to scalable approximations and complex GP models simply requires a routine for efficient matrix-matrix multiplication with the kernel and its derivative. In addition, BBMM uses a specialized preconditioner to substantially speed up convergence. In experiments we show that BBMM effectively uses GPU hardware to dramatically accelerate both exact GP inference and scalable approximations. Additionally, we provide GPyTorch, a software platform for scalable GP inference via BBMM, built on PyTorch.
연구 동기 및 목표
- 모델 명세와 추론 절차를 분리하는 하드웨어 효율적인 GP 추론 도구의 필요성을 제시한다.
- 핸들러가 아닌 커널 행렬-행렬 곱에 의존하는 블랙박스 프레임워크(BBMM)를 개발한다.
- 정확한 GP와 일반적인 근사(SGPR, SKI)를 지원하는 확장 가능하고 GPU 친화적인 GP 추론 엔진을 제공한다.
- 복잡한 GP 모델의 프로토타이핑을 단순화하기 위해 PyTorch 기반의 소프트웨어 플랫폼(GPyTorch)을 제공한다.
제안 방법
- 모든 추론 항(K^{-1}y, log|K|, 그리고 Tr(K^{-1} dK/dθ))를 단일 호출로 계산하기 위해 수정된 배치 켤레 기울법(mBCG)을 사용한다.
- 프로브 벡터 z_i를 사용한 확률적 트레이스 추정을 통해 로그 determinant와 트레이스를 추정한다.
- 피벗된 Cholesky 전처치기 P = L_k L_k^T + σ^2 I를 사용하여 CG 수렴을 가속하고 효율적인 로그-행렬 보정을 가능하게 한다.
- BBMM이 정확한 GP 추론의 복잡도를 O(n^3)에서 O(n^2)로 감소시키고 SGPR 및 SKI 프레임워크와 통합됨을 보여준다.
- BBMM가 GPU 하드웨어를 활용하여 다수의 GP 모델 및 데이터셋에서 Cholesky 기반 방법에 비해 상당한 속도 향상을 달성함을 보여준다.
실험 결과
연구 질문
- RQ1BBMM 추론이 정확하고 근사 GP 모델 모두에서 Cholesky 기반 추론의 정확도에 맞추거나 이를 능가할 수 있는가?
- RQ2피벗된 Cholesky 전처리를 이용한 수정된 배치 CG(mBCG)가 GPU 하드웨어에서 수렴 속도와 확장성 측면에서 어떤 성능을 보이는가?
- RQ3최소한의 도출 노력으로 BBMM를 블랙박스 프레임워크로 다양한 GP 모델과 확장 가능한 근사(SGPR, SKI, Toeplitz/KISS-GP)에 적용할 수 있는 정도는 어느 정도인가?
주요 결과
- GPU상의 BBMM은 CPU의 Cholesky 기반 방법에 비해 정확한 GP 추론 및 확장 가능한 근사를 크게 가속한다.
- BBMM를 이용한 정확한 GP는 데이터가 약 3000 포인트 정도까지인 경우 Cholesky 기반 접근법보다 최대 20배 빠를 수 있다(제한은 GPU 메모리).
- BBMM를 포함한 SGPR 및 SKI는 각각 최대 15배, 4배의 속도 향상을 500,000 포인트까지의 데이터셋에서 달성한다.
- 피벗된 Cholesky로의 전처리하고 BBMM 프레임워크에서 CG 수렴 속도를 크게 향상시킨다.
- BBMM 접근법은 효율적인 커널 행렬 곱에 의존함으로써 대부분의 GP 모델의 구현을 적은 코드(대개 <50)로 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.