Skip to main content
QUICK REVIEW

[論文レビュー] Nonparametric Divergence Estimation with Applications to Machine Learning on Distributions

Barnabás Póczos, Liang Xiong|arXiv (Cornell University)|Feb 14, 2012
Anomaly Detection Techniques and Applications参考文献 34被引用数 63
ひとこと要約

本稿では、独立同分布の標本を用いて確率分布間の発散を推定する非パrametric手法を提案する。この手法により、クラスタリング、分類、異常検出といった機械学習タスクを分布に対して実行可能となる。k-近傍法による密度推定とカーネルベースの発散推定を活用し、合成データ、画像、天文学的データにおいてもロバストでスケーラブルな性能を達成する。

ABSTRACT

Low-dimensional embedding, manifold learning, clustering, classification, and anomaly detection are among the most important problems in machine learning. The existing methods usually consider the case when each instance has a fixed, finite-dimensional feature representation. Here we consider a different setting. We assume that each instance corresponds to a continuous probability distribution. These distributions are unknown, but we are given some i.i.d. samples from each distribution. Our goal is to estimate the distances between these distributions and use these distances to perform low-dimensional embedding, clustering/classification, or anomaly detection for the distributions. We present estimation algorithms, describe how to apply them for machine learning tasks on distributions, and show empirical results on synthetic data, real word images, and astronomical data sets.

研究の動機と目的

  • 固定次元のベクトルではなく、確率分布に対して機械学習を実行する課題に対処すること。
  • データインスタンスが確率分布である場合に、低次元埋め込み、クラスタリング、分類、異常検出を可能にすること。
  • 未知の連続的分布からのi.i.d.標本に対して動作する非パrametricな発散推定フレームワークの開発。
  • パrametricな仮定を一切用いずに、分布間の統計的距離を測定するスケーラブルでロバストな手法の提供。
  • 画像や天文学的データセットを含む多様な分野への適用可能性の実証。

提案手法

  • i.i.d.標本から、k-近傍法(k-NN)による密度推定を用いて、各分布の確率密度を非パrametricに近似する。
  • 局所的密度比に基づいて導出されたカーネルベースの推定器を用いて、Kullback-Leibler発散やf-発散を推定する。
  • 明示的な密度モデルを必要とせずに、近傍法に基づくアプローチで2つの分布間の発散を推定する。
  • 推定された発散を用いて、分布間の距離行列を構築し、下流の機械学習タスクに活用する。
  • 得られた距離行列を用いて、多次元尺度構成法(MDS)などの標準的手法による次元削減、クラスタリング、分類を実行する。
  • 強いパrametric仮定を避ける非パrametric技術を活用することで、スケーラビリティとロバスト性を確保する。

実験結果

リサーチクエスチョン

  • RQ1i.i.d.標本から得られる未知の連続的確率分布間の距離を、非パrametricな発散推定が的確に測定できるか?
  • RQ2このような発散推定は、分布の低次元埋め込みとクラスタリングにどの程度有効に機能するか?
  • RQ3本手法は、画像や天文学的データセットなどの実世界データに対してどの程度の性能を示すか?
  • RQ4精度とロバスト性の観点から、従来のパrametric手法や他の非パrametric手法と比較して、本手法はどのように差をつけるか?
  • RQ5推定された発散は、分布ベースの機械学習における異常検出に信頼性を持って利用できるか?

主な発見

  • 提案手法である非パrametricな発散推定は、限られたi.i.i.d.標本でも、分布間の距離推定を高精度で達成する。
  • 推定された発散行列を用いた多次元尺度構成法(MDS)により、分布の有効な低次元埋め込みが可能である。
  • 合成データおよび実世界の画像データセットにおける、分布レベルのデータに対するクラスタリングおよび分類タスクで優れた性能を示す。
  • 異常検出の実験から、多数の分布からの発散からの逸脱に基づいて、外れ値の分布を同定できることが示された。
  • 天文学的データセットにおける実証的結果から、高次元で現実的な設定においても、本手法のロバスト性とスケーラビリティが確認された。
  • k-NNに基づく発散推定器は、多様なデータタイプや分布形状にわたり一貫した性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。