Skip to main content
QUICK REVIEW

[논문 리뷰] A Kernel Test of Goodness of Fit

Kacper Chwialkowski, Heiko Strathmann|arXiv (Cornell University)|2016. 02. 09.
Markov Chains and Monte Carlo Methods참고 문헌 37인용 수 102
한 줄 요약

RKHS에서 Stein 불일치를 이용한 비모수적 적합도 검정을 제안하고 그 영적분포를 wild bootstrap를 통해 계산하며, i.i.d. 및 의존 샘플에 적용 가능하다.

ABSTRACT

We propose a nonparametric statistical test for goodness-of-fit: given a set of samples, the test determines how likely it is that these were generated from a target density function. The measure of goodness-of-fit is a divergence constructed via Stein's method using functions from a Reproducing Kernel Hilbert Space. Our test statistic is based on an empirical estimate of this divergence, taking the form of a V-statistic in terms of the log gradients of the target density and the kernel. We derive a statistical test, both for i.i.d. and non-i.i.d. samples, where we estimate the null distribution quantiles using a wild bootstrap procedure. We apply our test to quantifying convergence of approximate Markov Chain Monte Carlo methods, statistical model criticism, and evaluating quality of fit vs model complexity in nonparametric density estimation.

연구 동기 및 목표

  • RKHS 프레임워크 내에서 Stein 방법에 기초한 비모수적 적합도 검정을 개발한다.
  • 타깃 밀도 적분에 의존하지 않고 커널과 로그 타깃 밀도의 기울기(그라디언트)를 사용한다.
  • 독립 샘플과 종속 샘플 모두에 대해 부트스트랩 보정 임계치를 갖춘 실용적 통계 검정을 제공한다.
  • 근사 MCMC 수렴, 모델 비판 및 비모수적 밀도 추정에 대한 응용을 보여준다.

제안 방법

  • RKHS에서 Stein 연산자를 정의하고 S_p(Z)를 E_q[ξ_p(Z)]의 RKHS 노름으로 닫힌 형식으로 도출한다.
  • 대칭 커널 함수 h_p를 이용해 불일치를 표현하고 S_p^2(Z)=E_q[h_p(Z,Z')] 이고 Z'가 Z와 독립임을 보인다.
  • 샘플 {Z_i}에서 S_p^2(Z)에 대한 이차 시간 복잡도의 V-통계량 추정치 V_n를 구성한다.
  • 의존 데이터에 대한 영분포 분위수를 추정하기 위해 wild bootstrap를 사용하고 실용적인 검정 절차를 도출한다.
  • 완만한 조건하에서 커널 선택이 보편적임을 증명하여 p와 q를 구분할 수 있음을 보장한다.
  • tau- mixing 하에서 영분포의 점근적 결과와 bootstrap의 타당성을 제공한다.

실험 결과

연구 질문

  • RQ1커널 기반 Stein 불일치가 타깃 분포 p와 관찰 분포 q 간의 어떠한 차이도 구분할 수 있는가?
  • RQ2i.i.d. 및 의존 샘플에 대해 Stein 기반 검정統의 영분포를 어떻게 신뢰성 있게 추정하나?
  • RQ3제안된 검정이 근사 MCMC 수렴, 모델 비판 및 비모수적 밀도 추정을 평가하는 데 작동하는가?
  • RQ4데이터의 상관관계를 다루기 위한 부트스트랩 튜닝에 관한 실용적 지침은 무엇인가?

주요 결과

  • 검정 통계량 S_p(Z)는 E_q[ξ_p(Z)]의 RKHS 노름으로 주어지며, 닫힌 형식의 h_p 표현을 가진다.
  • 일정한 조건하에서 S_p^2(Z)=E_q[h_p(Z,Z')] 이고 커널이 C_0-보편적일 때 통계량은 p와 q를 구분한다.
  • wild bootstrap 절차는 독립 샘플과 종속 샘플 모두에 대해 일관되게 보정된 p-값을 제공한다.
  • 이 방법은 근사 MCMC 바이어스-분산, GP 모델 비판 및 비모수적 밀도 추정기의 수렴에 대한 실용적 통찰을 제공한다.
  • 이 접근법은 타깃 분포나 그 정규화 상수를 샘플링할 필요가 없다.
  • 복제를 위한 코드는 저자 저장소에서 이용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.