Skip to main content
QUICK REVIEW

[論文レビュー] Multivariate f-Divergence Estimation With Confidence

Kevin R. Moon, Alfred O. Hero|arXiv (Cornell University)|Nov 7, 2014
Advanced Statistical Methods and Models参考文献 34被引用数 29
ひとこと要約

本稿では、2つの未知の分布間の多変量 f-発散度に対する非パラメトリックアンサンブル推定量の漸近正規性を確立し、平均二乗誤差(MSE)の収束レートが $O(1/T)$ に達することを示している。この手法により、滑らかさおよび有界な定義域の条件下で推定量の標本分布が正規分布に収束することを証明することで、仮説検定や信頼区間の構築といった有効な統計的推論が可能になる。

ABSTRACT

The problem of f-divergence estimation is important in the fields of machine learning, information theory, and statistics. While several nonparametric divergence estimators exist, relatively few have known convergence properties. In particular, even for those estimators whose MSE convergence rates are known, the asymptotic distributions are unknown. We establish the asymptotic normality of a recently proposed ensemble estimator of f-divergence between two distributions from a finite number of samples. This estimator has MSE convergence rate of O(1/T), is simple to implement, and performs well in high dimensions. This theory enables us to perform divergence-based inference tasks such as testing equality of pairs of distributions based on empirical samples. We experimentally validate our theoretical results and, as an illustration, use them to empirically bound the best achievable classification error.

研究の動機と目的

  • 非パラメトリック f-発散度推定量の漸近分布理論の欠如に取り組むこと、これは既知の一貫性およびMSE収束レートとは対照的である。
  • 有限標本からの f-発散度推定値に対して、仮説検定や信頼区間の構築といった統計的推論タスクを可能にすること。
  • 滑らかさの条件が緩い場合でも、エントロピー推定から一般 f-発散度推定への漸近正規性の結果を拡張すること。
  • 密度の定義域の知識を必要とせず、理論的に根拠があり、実装可能な推定量を提供すること。

提案手法

  • カーネル密度プラグイン推定量とオフライン凸最適化に基づく重み付きアンサンブル推定量を提案する。
  • 異なるバンド幅を用いたカーネル密度推定量の系列を用いて、頑健で非パラメトリックな f-発散度推定を構築する。
  • 滑らかさ、有界な定義域、密度の下限値の存在を仮定したもとで、アンサンブル推定量の正規化スキームを適用し、その漸近分布を導出する。
  • 特徴関数解析とモーメントのバウンドを用いた多変量中心極限定理の議論により、標準正規分布への収束を証明する。
  • モーメント展開とマコフの不等式を用いて、バンド幅間の共通項の依存性を制御するための共分散の減衰レートを導出する。
  • 理論的結果を実験的に検証し、高次元設定でも収束性と推論の有効性を示している。

実験結果

リサーチクエスチョン

  • RQ1標準的な正則性条件下で、非パラメトリックアンサンブル f-発散度推定量は漸近正規性を達成するか?
  • RQ2漸近正規性の結果を用いて、f-発散度推定値の有効な信頼区間を構築できるか?
  • RQ3推定量の平均二乗誤差の収束レートは何か? 他の手法と比較するとどうなるか?
  • RQ4実証的標本に基づいて、2つの分布が等しいという帰無仮説を検定するためにこの推定量を用いることができるか?
  • RQ5密度の定義域の知識がなくても、高次元設定で推定量はどのように性能を発揮するか?

主な発見

  • 提案されたアンサンブル f-発散度推定量は、平均二乗誤差の収束レートが $O(1/T)$ に達し、パラメトリックレートと一致する。
  • 滑らかさ、有界な定義域、密度の正の下限値の仮定のもとで、推定量の標本分布は正規分布に収束する。
  • 漸近正規性のおかげで、f-発散度に対する仮説検定や信頼区間の構築といった有効な統計的推論が可能になる。
  • 他の手法とは異なり、密度の定義域の知識を必要としないため、実用的応用性が向上する。
  • 実験的検証により理論的収束性が確認され、最も達成可能な分類誤差の境界を求める応用の有効性も示されている。
  • 計算の単純さと高次元へのスケーラビリティの観点で、代替手法を上回っている。特に、定義域の知識が得られない状況において顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。