Skip to main content
QUICK REVIEW

[論文レビュー] On integral probability metrics, ϕ-divergences and binary classification

Bharath K. Sriperumbudur, Kenji Fukumizu|ArXiv.org|Jan 18, 2009
Statistical Mechanics and Entropy参考文献 63被引用数 93
ひとこと要約

本稿は、積分確率距離(IPM)と2値分類の間の新しい関係を確立し、条件付き分布間のIPMが最適分類リスクの負の値に等しいことを示している。IPMはφ-発散より収束速度が速く、一貫した推定が可能であることを証明しており、全変動距離が唯一のφ-発散と同時にIPMであることを特定し、統計的学習応用における両者の根本的差異を強調している。

ABSTRACT

A class of distance measures on probabilities -- the integral probability metrics (IPMs) -- is addressed: these include the Wasserstein distance, Dudley metric, and Maximum Mean Discrepancy. IPMs have thus far mostly been used in more abstract settings, for instance as theoretical tools in mass transportation problems, and in metrizing the weak topology on the set of all Borel probability measures defined on a metric space. Practical applications of IPMs are less common, with some exceptions in the kernel machines literature. The present work contributes a number of novel properties of IPMs, which should contribute to making IPMs more widely used in practice, for instance in areas where $ϕ$-divergences are currently popular. First, to understand the relation between IPMs and $ϕ$-divergences, the necessary and sufficient conditions under which these classes intersect are derived: the total variation distance is shown to be the only non-trivial $ϕ$-divergence that is also an IPM. This shows that IPMs are essentially different from $ϕ$-divergences. Second, empirical estimates of several IPMs from finite i.i.d. samples are obtained, and their consistency and convergence rates are analyzed. These estimators are shown to be easily computable, with better rates of convergence than estimators of $ϕ$-divergences. Third, a novel interpretation is provided for IPMs by relating them to binary classification, where it is shown that the IPM between class-conditional distributions is the negative of the optimal risk associated with a binary classifier. In addition, the smoothness of an appropriate binary classifier is proved to be inversely related to the distance between the class-conditional distributions, measured in terms of an IPM.

研究の動機と目的

  • 積分確率距離(IPM)とφ-発散の理論的関係を明確にし、特に両者の交差と根本的差異を解明すること。
  • 独立同分布の有限標本からIPMを一貫的かつ計算効率よく推定するための推定量を開発し、明示的な収束速度を提示すること。
  • IPMを2値分類を通じて新たな解釈を与えることにより、条件付き分布間の距離と最適分類リスクの関係を提示すること。
  • 最適2値分類器の滑らかさが、条件付き分布間のIPMと逆比例することを確立すること。

提案手法

  • IPMとφ-発散の交差に必要な十分条件を導出し、全変動距離が唯一両者に属する唯一の距離であることを証明する。
  • 有界かつ可測な関数族Fを用いたIPMの経験的推定量を提案し、ラデマッハ複雑度とMcDiarmidの不等式を用いて集中不等式を導出する。
  • 対称化と経験過程論を適用して、経験的IPMと真の値との乖離をバインドし、一貫性を保証する。
  • Lipschitz制約下でIPMが最適リスクの負の値に等しいことを示すことで、IPMと2値分類リスクの双対性を確立する。
  • Lipschitz拡張定理と凸解析(例:定理24)を用いて、最適分類器の構造的性質とIPM距離との関連における滑らかさを証明する。
  • 被覆数とエントロピー条件を用いてIPM推定量の収束速度を分析し、同じ条件下でφ-発散の推定量よりも速い収束速度を示す。

実験結果

リサーチクエスチョン

  • RQ1どのφ-発散距離(もし存在するならば)が、同時に積分確率距離(IPM)であるか?
  • RQ2IPMは有限i.i.d.標本から一貫して推定可能か? その収束速度はφ-発散の推定量と比較してどうか?
  • RQ3IPMと2値分類における最適リスクの関係は何か?
  • RQ4最適2値分類器の滑らかさは、条件付き分布間のIPMとどのように関係するか?
  • RQ5IPMは、φ-発散より計算的・理論的利点があるため、統計的学習応用で実用的に活用可能か?

主な発見

  • 全変動距離が、非自明なφ-発散の中で唯一IPMに属するものであり、両者のクラス間に根本的差異を示している。
  • IPMの経験的推定量は一貫的であり、特に高次元設定下でφ-発散の推定量よりも収束速度が速い。
  • 条件付き分布間のIPMは、有界Lipschitz制約を課えた2値分類器の最適分類リスクの負の値に等しい。
  • 最適2値分類器の滑らかさは、条件付き分布間のIPMと逆比例する。これは距離の幾何的解釈を提供する。
  • 再生核ヒルベルト空間(RKHS)に属する関数族を用いることで、IPMは効率的に推定可能であり、ラデマッハ複雑度とMcDiarmidの不等式を用いて収束速度を導出できる。
  • 対称化と集中不等式を用いてIPM推定誤差の理論的バインドを導出し、有限標本設定下での信頼性を保証している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。