Skip to main content
QUICK REVIEW

[論文レビュー] Kernel Tests of Equivalence

Xing Liu, Axel Gandy|arXiv (Cornell University)|Mar 11, 2026
Markov Chains and Monte Carlo Methods被引用数 0
ひとこと要約

論文はカーネルStein不一致(KSD)と最大平均差異(MMD)を用いた分布の比較のためのカーネルベースの等価性検定を導入し、正規近似とブートストラップの実装を提供します。

ABSTRACT

We propose novel kernel-based tests for assessing the equivalence between distributions. Traditional goodness-of-fit testing is inappropriate for concluding the absence of distributional differences, because failure to reject the null hypothesis may simply be a result of lack of test power, also known as the Type-II error. This motivates \emph{equivalence testing}, which aims to assess the \emph{absence} of a statistically meaningful effect under controlled error rates. However, existing equivalence tests are either limited to parametric distributions or focus only on specific moments rather than the full distribution. We address these limitations using two kernel-based statistical discrepancies: the \emph{kernel Stein discrepancy} and the \emph{Maximum Mean Discrepancy}. The null hypothesis of our proposed tests assumes the candidate distribution differs from the nominal distribution by at least a pre-defined margin, which is measured by these discrepancies. We propose two approaches for computing the critical values of the tests, one using an asymptotic normality approximation, and another based on bootstrapping. Numerical experiments are conducted to assess the performance of these tests.

研究の動機と目的

  • 標準GOF検定が意味のある分布差の不存在を主張する際の限界の解決策として等価性検定を動機付ける。
  • KSDとMMDを用いて、事前に定義されたマージンの下で等価性を評価する非パラメトリックかつカーネルベースの検定を開発する。
  • 1サンプルおよび2サンプル設定のための正規近似とブートストラップの2つの実装経路を提供する。
  • 不等な標本サイズを許容し、パラメトリック分布仮定を避けつつ、校正と一貫性を確保する。

提案手法

  • Kernel Stein Discrepancy (KSD)を用いた1サンプル等価性のE-KSD-NormalおよびE-KSD-Boot検定を提案。
  • Maximum Mean Discrepancy (MMD)を用いた2サンプル等価性のE-MMD-NormalおよびE-MMD-Boot検定を提案。
  • Q ≠ P の下でKSDの漸近正規性を導出し、ジャックナイフ分散推定量を用いた正規ベースの検定統計量を開発。
  • 三角不等式アプローチを用いたブートストラップベースの検定(E-KSD-Boot)を開発し、小さなマージンでのType-I誤差制御を改善。
  • ブートストラップベースの検定のための等価マージンθをデータ駆動で選択する方法を導入。
  • V-statisticsとカーネル平均埋め込みによる計算、閉形式のMMD表現とブートストラッピング診断を含む。
Figure 1: Comparison of different hypothesis testing paradigms. The shaded area represents the space of distributions of interest. The null sets are shown in orange, and the alternative sets in grey. Left. standard testing with a point null hypothesis. Middle. Robust testing based on a statistical d
Figure 1: Comparison of different hypothesis testing paradigms. The shaded area represents the space of distributions of interest. The null sets are shown in orange, and the alternative sets in grey. Left. standard testing with a point null hypothesis. Middle. Robust testing based on a statistical d

実験結果

リサーチクエスチョン

  • RQ1カーネルベースの不一致(KSDとMMD)は、事前に定義されたマージン内で2つの分布が等価であるとすることを信頼できるか。
  • RQ2正規近似とブートストラップのアプローチは、さまざまなマージンと標本サイズ下でType-I誤差制御と検出力の点でどう比較されるか。
  • RQ3パラメトリック仮定なしで、1サンプルおよび2サンプルの等価性検定に不等な標本サイズを適用できるか。
  • RQ4これらの検定の実用的でデータ駆動の等価マージン閾値の選択戦略は何か。

主な発見

  • 2つのカーネルベース等価性検定ファミリを提案: 1サンプルはKSDベース、2サンプルはMMDベース。
  • E-KSD-Normalは前提条件の下で校正され一貫性を持つが、小さなマージンではType-I誤差が膨らむ可能性。
  • E-KSD-Bootは有限サンプルでType-I誤差制御を改善する一方、検出力にコストがかかる。
  • E-MMD-NormalとE-MMD-Bootは2サンプル設定に拡張され、不等な標本サイズを許容する。
  • ブートストラップベースのアプローチは、正規近似が小さな等価マージンで信頼できない場合に堅牢な制御を提供する。
  • ブートストラップ検定のデータ駆動の等価マージンθ選択法を提案。
Figure 2: Gaussian mean-shift experiments with varying sample sizes. The black dotted vertical line is the equivalence margin $\theta$ .
Figure 2: Gaussian mean-shift experiments with varying sample sizes. The black dotted vertical line is the equivalence margin $\theta$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。