QUICK REVIEW

[논문 리뷰] A Divide-and-Conquer Bayesian Approach to Large-Scale Kriging

Rajarshi Guhaniyogi, Cheng Li|arXiv (Cornell University)|2017. 12. 28.

Soil Geostatistics and Mapping참고 문헌 67인용 수 25

한 줄 요약

이 논문은 분할 정복 베이지안 프레임워크인 분산 크리깅(DISK)을 제안한다. 이는 데이터를 부분집합으로 나누고, 수정된 우도를 사용해 병렬로 사후분포를 계산하며, 전체 데이터 사후분포를 근사하는 의사사후분포로 최적으로 조합함으로써 대규모 공간 크리깅에서 막대한 확장성을 가능하게 한다. 이 방법은 다양한 공분산 구조 하에서 진짜 공간 표면을 추정할 때 거의 최소 최대 최적 수렴 속도를 달성한다.

ABSTRACT

We propose a three-step divide-and-conquer strategy within the Bayesian paradigm that delivers massive scalability for any spatial process model. We partition the data into a large number of subsets, apply a readily available Bayesian spatial process model on every subset, in parallel, and optimally combine the posterior distributions estimated across all the subsets into a pseudo-posterior distribution that conditions on the entire data. The combined pseudo posterior distribution replaces the full data posterior distribution for predicting the responses at arbitrary locations and for inference on the model parameters and spatial surface. Based on distributed Bayesian inference, our approach is called "Distributed Kriging" (DISK) and offers significant advantages in massive data applications where the full data are stored across multiple machines. We show theoretically that the Bayes $L_2$-risk of the DISK posterior distribution achieves the near optimal convergence rate in estimating the true spatial surface with various types of covariance functions, and provide upper bounds for the number of subsets as a function of the full sample size. The model-free feature of DISK is demonstrated by scaling posterior computations in spatial process models with a stationary full-rank and a nonstationary low-rank Gaussian process (GP) prior. A variety of simulations and a geostatistical analysis of the Pacific Ocean sea surface temperature data validate our theoretical results.

연구 동기 및 목표

크리깅의 전체 베이지안 모델링이 O(n³) 비용과 O(n²) 저장소로 인해 대규모 공간 데이터셋에서 계산적으로 불가능한 문제를 해결하기 위해.
제한적인 가정 없이 어떤 GP 기반 공간 모델의 확장성도 향상시키는 일반적이고 모델에 종속되지 않는 프레임워크를 개발하기 위해.
분산 시스템 전반에서 계산 효율성을 유지하면서도 진짜 공간 표면 추정에서 이론적 최적성을 확보하기 위해.
예측, 매개변수 추론, 표면 보간을 지원하는 원칙적인 분산 베이지안 추론 접근법을 제공하기 위해.

제안 방법

전체 공간 데이터셋을 k개의 상호배타적인 부분집합으로 나누되, 각 부분집합이 전체 공간 영역을 대표하도록 한다.
각 부분집합에 대해 선택한 베이지안 공간 프로세스 모델을 적용하고, 사후분포의 분산 스케일링을 유지하기 위해 우도를 n/m_j 배로 상승시킨다.
각 부분집합의 사후분포를 병렬로 계산하여, 각각이 전체 데이터의 정보를 반영하도록 한다.
완전한 데이터 사후분포를 근사하기 위해 워싱턴 바리센터 기법을 사용해 k개의 부분집합 사후분포를 최적으로 조합하여 단일 DISK 의사사후분포를 생성한다.
대부분의 매개변수에 대해 해석적으로 다룰 수 있는 조건부 분포를 가진 겔즈 샘플링과 메트로폴리스-해스팅스를 사용해 각 부분집합의 사후분포를 계산한다.
결합된 DISK 사후분포를 사용해 새로운 위치에 대한 예측분포를 유도함으로써 확장 가능한 예측과 추론을 가능하게 한다.

실험 결과

연구 질문

RQ1분할 정복 베이지안 접근법이 대규모 공간 데이터에서 진짜 공간 표면을 추정할 때 거의 최소 최대 최적 수렴 속도를 달성할 수 있는가?
RQ2DISK 프레임워크는 독립적인 데이터 부분집합에서 유도된 부분집합 사후분포를 조합할 때 이론적 정확도를 어떻게 유지하는가?
RQ3n이 증가함에 따라 최적의 추정 성능을 유지하기 위해 허용되는 부분집합 수 k의 상한은 무엇인가?
RQ4DISK 프레임워크는 모델 특화된 가정 없이 정적 및 비정적 공간 모델에 모두 적용될 수 있는가?
RQ5수정된 우도 스케일링(n/m_j)이 부분집합 사후분포 간 일관된 분산 행동을 어떻게 보장하는가?

주요 결과

DISK 사후분포의 베이즈 L₂-리스크는 정적 및 비정적 유형을 포함한 광범위한 공분산 함수 클래스에서 거의 최소 최대 최적 수렴 속도를 달성한다.
부분집합 수 k에 대한 상한은 전체 표본 크기 n과 진짜 공간 표면의 매끄러움 정도에 따라 함수적으로 증가하며, 이론적 일致성을 보장한다.
각 부분집합의 크기가 m_j일 때, 전체 베이지안 크리깅의 O(n³) 비용을 O(k m_j³)로 줄여 계산 가능성을 유지한다.
태평양 해수면 온도 데이터에 대한 시뮬레이션과 실세계 분석을 통해 DISK가 전체 데이터 방법과 비교해 정확한 표면 추정과 예측을 달성함을 확인했다.
DISK 프레임워크는 모든 GP 기반 공간 모델, 특히 저랭크 및 전체 랭크 가우시안 프로세스에 적용 가능한 모델에 종속되지 않는다는 점에서 모델 자유형이다.
부분집합 사후분포를 조합하기 위해 워싱턴 바리센터를 사용함으로써, 전체 데이터 사후분포를 대체할 수 있는 일관되고 잘 校정된 의사사후분포를 확보한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.