Skip to main content
QUICK REVIEW

[論文レビュー] A Kernel Method for the Two-Sample Problem

Arthur Gretton, Karsten Borgwardt|ArXiv.org|May 15, 2008
Data Stream Mining Techniques参考文献 47被引用数 249
ひとこと要約

本論文は、再帰的核ヒルベルト空間(RKHS)の単位球内の関数についての期待値の最大差を測定する、カーネルに基づく二標本問題の統計的検定である最大平均差(MMD)を導入する。この手法は、有限標本の保証と漸近的近似を備えた一貫性のある非パラメトリック検定を提供し、2次時間計算量と線形時間の近似を達成しており、グラフやマイクロアレイデータセットを含む高次元データにおいて優れた性能を示す。

ABSTRACT

We propose a framework for analyzing and comparing distributions, allowing us to design statistical tests to determine if two samples are drawn from different distributions. Our test statistic is the largest difference in expectations over functions in the unit ball of a reproducing kernel Hilbert space (RKHS). We present two tests based on large deviation bounds for the test statistic, while a third is based on the asymptotic distribution of this statistic. The test statistic can be computed in quadratic time, although efficient linear time approximations are available. Several classical metrics on distributions are recovered when the function space used to compute the difference in expectations is allowed to be more general (eg. a Banach space). We apply our two-sample tests to a variety of problems, including attribute matching for databases using the Hungarian marriage method, where they perform strongly. Excellent performance is also obtained when comparing distributions over graphs, for which these are the first such tests.

研究の動機と目的

  • 2つの標本が異なる確率分布から抽出されたかどうかを特定する非パラメトリック統計的検定を開発すること。
  • 普遍的再帰的核ヒルベルト空間(RKHS)の関数族を用いることで、検定の一貫性と有限標本における性能保証を確保すること。
  • 大規模データ向けに計算効率の良い代替手法、特に線形時間の近似を提供すること。
  • バイオインフォマティクス、神経データ解析、データベース属性マッチングなどの実世界の問題への応用を実施すること。
  • 関数族が十分に豊富な場合(例えば、普遍的RKHSの場合)、MMD統計量が確率分布上の有効な距離関数であることを示すこと。

提案手法

  • 普遍的RKHSの単位球内の関数についての期待値の差の最大値として、最大平均差(MMD)を定義する。
  • 一様収束バウンドを用いて、型Iエラーを保証する2つの有限標本の仮説検定を導出する。
  • 帰無仮説の下での経験的MMDの漸近的分布に基づく第3の漸近的検定を導出する。
  • ランダムフーリエ特徴量やその他のスケッチ技術を用いて、MMDの線形時間近似を提案する。
  • 2つの分布からの標本間のペアワイズカーネル評価を含むU統計量推定器を用いてMMDを計算する。
  • 理論的性質を確立:RKHSが普遍的である限り、MMDが0であることはかつては分布が等しいことに同値である。

実験結果

リサーチクエスチョン

  • RQ12つの確率分布の差を一貫して検出できるカーネルベースの検定統計量を構築できるか?
  • RQ2どのような関数族が、MMDがかつては2つの分布が同一であるときに限り0になるように保証するか?
  • RQ3MMD検定統計量に対して有限標本における性能保証をどのように提供できるか?
  • RQ4帰無仮説の下で経験的MMDの漸近的分布は何か?
  • RQ5統計的パワーを損なわせることなく、MMDの計算効率の良い線形時間近似を導出できるか?

主な発見

  • 関数族が普遍的RKHSの単位球である場合、MMDは確率分布上の有効な距離関数である。MMD = 0 がかつては p = q に同値であることを保証する。
  • 一様収束バウンドに基づく提案された有限標本検定は、非漸近的型Iエラー制御を提供するが、パワーはやや保守的である。
  • MMDの漸近的分布に基づく漸近的検定は、小標本サイズにおいて有限標本バウンドよりも高いパワーを示す。
  • MMDは m および n 個の標本に対して O((m+n)²) 時間で計算可能であり、大規模データセットには線形時間の近似が利用可能である。
  • ハンガリアン・マリッジ法を用いた属性マッチングにおいて、ベースライン手法を上回る優れた性能を発揮する。
  • 実験的結果は、マイクロアレイデーターやグラフ構造の分布を含む高次元データにおいて、優れた性能を示しており、これまでは二標本検定が存在しなかった分野でも同様の結果を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。