Skip to main content
QUICK REVIEW

[논문 리뷰] Behaviour of ABC for Big Data

Wentao Li, Paul Fearnhead|arXiv (Cornell University)|2015. 06. 10.
Markov Chains and Monte Carlo Methods참고 문헌 42인용 수 1
한 줄 요약

이 논문은 대용량 표본 조건 하에서 Approximate Bayesian Computation (ABC)에서 사후 평균의 점근적 정규성을 확립하며, 매개변수 벡터의 차원과 동일한 차원을 갖는 요약 통계량을 사용할 경우 점근적 분산을 최소화함을 보여준다. 또한 잘 선택된 제안 분포를 사용한 중요도 표본 추출법이 요약 통계량 기반 최대우도 추정기와 유사한 추정 분산을 달성할 수 있음을 입증하여, 대규모 데이터에 대한 효율적인 ABC 추론을 가능하게 한다.

ABSTRACT

Many statistical applications involve models for which it is difficult to evaluate the likelihood, but from which it is relatively easy to sample. Approximate Bayesian computation is a likelihood-free method for implementing Bayesian inference in such cases. We present results on the asymptotic variance of estimators obtained using approximate Bayesian computation in a large-data limit. Our key assumption is that the data are summarized by a fixed-dimensional summary statistic that obeys a central limit theorem. We prove asymptotic normality of the mean of the approximate Bayesian computation posterior. This result also shows that, in terms of asymptotic variance, we should use a summary statistic that is the same dimension as the parameter vector, p; and that any summary statistic of higher dimension can be reduced, through a linear transformation, to dimension p in a way that can only reduce the asymptotic variance of the posterior mean. We look at how the Monte Carlo error of an importance sampling algorithm that samples from the approximate Bayesian computation posterior affects the accuracy of estimators. We give conditions on the importance sampling proposal distribution such that the variance of the estimator will be the same order as that of the maximum likelihood estimator based on the summary statistics used. This suggests an iterative importance sampling algorithm, which we evaluate empirically on a stochastic volatility model.

연구 동기 및 목표

  • 대규모 데이터 근처에서 ABC 사후 추정기의 점근적 분산을 분석하기 위해.
  • ABC에서 사후 분산을 최소화하기 위해 요약 통계량의 최적 차원을 결정하기 위해.
  • 중요도 표본 추출법에서 몬테카를로 오차가 ABC 추정기 정확도에 미치는 영향을 조사하기 위해.
  • 중요도 표본 추출법이 요약 통계량 기반 최대우도 추정기와 유사한 분산을 달성할 수 있는 조건을 규명하기 위해.
  • 빅데이터 환경에서 ABC에 적합한 반복적 중요도 표본 추출 알고리즘을 제안하고 실증적으로 평가하기 위해.

제안 방법

  • 데이터가 고정된 차원을 갖는 요약 통계량으로 요약된다고 가정하며, 이 요약 통계량이 중심극한정리의 조건을 만족한다고 가정한다.
  • 이 가정 하에 ABC 사후 평균의 점근적 정규성을 증명한다.
  • 결과로 얻어지는 추정기의 분산이 요약 통계량 기반 최대우도 추정기의 분산과 같은 주기를 갖도록 하는 중요도 표본 추출의 제안 분포에 대한 조건을 유도한다.
  • 제안 분포를 점진적으로 개선하여 분산을 줄이는 반복적 중요도 표본 추출 알고리즘을 제안한다.
  • 실제 성능 평가를 위해 확률적 변동성 모델에 대해 알고리즘을 실증적으로 평가한다.
  • 고차원 요약 통계량을 분산을 증가시키지 않으면서도 차원 p로 감소시키기 위해 선형 변환을 사용한다.

실험 결과

연구 질문

  • RQ1대용량 표본 조건 하에서 ABC 사후 평균의 점근적 분포는 무엇인가?
  • RQ2요약 통계량의 차원은 ABC 사후 평균의 점근적 분산에 어떤 영향을 미치는가?
  • RQ3중요도 표본 추출법이 언제 요약 통계량 기반 최대우도 추정기와 유사한 분산을 달성할 수 있는가?
  • RQ4반복적 중요도 표본 추출 알고리즘이 빅데이터 환경에서 ABC 추정 정확도를 향상시킬 수 있는가?
  • RQ5고차원 요약 통계량을 분산을 증가시키지 않으면서도 차원 p로 줄일 수 있는가?

주요 결과

  • 요약 통계량이 중심극한정리를 만족한다고 가정할 경우, ABC 사후 평균은 점근적으로 정규분포를 따른다.
  • 매개변수 벡터의 차원과 동일한 차원을 갖는 요약 통계량을 사용할 경우, 사후 평균의 점근적 분산이 최소화된다.
  • 이보다 더 높은 차원의 요약 통계량이라도 선형 변환을 통해 차원 p로 줄일 수 있으며, 이 경우 점근적 분산이 증가하지 않는다.
  • 일부 정규성 조건을 만족하는 제안 분포를 갖는 중요도 표본 추출법은 요약 통계량 기반 최대우도 추정기와 동일한 주기를 갖는 추정기의 분산을 도출한다.
  • 제안된 반복적 중요도 표본 추출 알고리즘은 실증 평가에서 추정 오차를 감소시키고 효율성을 향상시킨다. 특히 확률적 변동성 모델에서의 평가 결과가 이를 뒷받침한다.
  • 이론적 분산 경계는, 잘 선택된 중요도 표본 추출 제안 분포와 결합할 경우 ABC가 거의 최적의 효율성을 달성할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.