Skip to main content
QUICK REVIEW

[論文レビュー] A Kernel Test of Goodness of Fit

Kacper Chwialkowski, Heiko Strathmann|arXiv (Cornell University)|Feb 9, 2016
Markov Chains and Monte Carlo Methods参考文献 37被引用数 102
ひとこと要約

私たちは、Stein 不一致を RKHS で用いた非parametric goodness-of-fit テストを提案し、wild bootstrap によって帰無分布を推定します。iid および依存サンプルに適用可能です。

ABSTRACT

We propose a nonparametric statistical test for goodness-of-fit: given a set of samples, the test determines how likely it is that these were generated from a target density function. The measure of goodness-of-fit is a divergence constructed via Stein's method using functions from a Reproducing Kernel Hilbert Space. Our test statistic is based on an empirical estimate of this divergence, taking the form of a V-statistic in terms of the log gradients of the target density and the kernel. We derive a statistical test, both for i.i.d. and non-i.i.d. samples, where we estimate the null distribution quantiles using a wild bootstrap procedure. We apply our test to quantifying convergence of approximate Markov Chain Monte Carlo methods, statistical model criticism, and evaluating quality of fit vs model complexity in nonparametric density estimation.

研究の動機と目的

  • Stein の方法を RKHS フレームワーク内で用いた非パラメトリックな適合度検定を開発する。
  • カーネルと対数ターゲット密度の勾配を用いることで、ターゲット密度の積分に依存しない。
  • 独立サンプルと依存サンプルの両方に対してブートストラップで校正された閾値を持つ実用的な統計検定を提供する。
  • 近似 MCMC の収束、モデル批判、非パラメトリック密度推定への適用を実証する。

提案手法

  • RKHS における Stein 演算子を定義し、E_q[ξ_p(Z)] の RKHS ノルムとして閉形式の Stein 不一致 S_p(Z) を導く。
  • 対称カーネル関数 h_p を用いて不一致を表現し、S_p^2(Z)=E_q[h_p(Z,Z')] を Z と独立な Z' で示す。
  • {Z_i} から S_p^2(Z) の二次計算時間の V-統計量推定量 V_n を構築する。
  • 依存データに対して null 分布の分位点を推定するために wild bootstrap を用い、実用的な検定手順を導出する。
  • カーネル選択が mild 条件下で普遍的であることを示し、p と q の識別性を保証する。
  • null 分布と bootstrap の妥当性について tau-混合の下で漸近結果を提供する。

実験結果

リサーチクエスチョン

  • RQ1カーネルベースの Stein 不一致は、ターゲット分布 p と観測分布 q の間の差を識別できるのか?
  • RQ2iid および依存サンプルに対して Stein ベース検定統計量の null 分布を信頼性高く推定するにはどうするか?
  • RQ3提案する検定は近似 MCMC の収束評価、モデル批判、非パラメトリック密度推定に有効か?
  • RQ4データの相関を扱う際のブートストラップの調整に関する実用的なガイドラインは?

主な発見

  • 検定統計量 S_p(Z) は E_q[ξ_p(Z)] の RKHS ノルムとして与えられ、閉形式の h_p 表現を持つ。
  • 特定の条件下で S_p^2(Z)=E_q[h_p(Z,Z')] となり、カーネルが C_0-普遍的であるとき p と q を識別できる。
  • wild bootstrap 手続きにより、独立および依存サンプルの両方に対して一貫して校正された p 値を提供する。
  • この手法は近似 MCMC バイアス-分散、GP モデル批判、および非パラメトリック密度推定器の収束性に実用的な洞察を与える。
  • ターゲット分布やその正規化定数からサンプリングする必要はない。
  • 再現性のためのコードは著者のリポジトリで利用可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。