QUICK REVIEW

[論文レビュー] Density Estimation for Shift-Invariant Multidimensional Distributions

Anindya De, Philip M. Long|arXiv (Cornell University)|Nov 9, 2018

Machine Learning and Algorithms参考文献 46被引用数 2

ひとこと要約

本稿では、ジャンプ不連続性を有する分布の効率的学習を可能にする多次元密度推定のための新しい滑らかさ条件—シフト不変性—を導入する。この条件により、指数的尾部減衰を示すd次元シフト不変分布を、Õd(1/ε^{d+2})個のサンプルとÕd(1/ε^{2d+2})の時間で学習可能であり、合計変動誤差がεに達する。また、Huberの混合モデルに対してもO(ε)の誤差を達成する。結果はほぼタイトであり、情報理論的下界Ω(1/ε^d)と一致する。

ABSTRACT

We study density estimation for classes of shift-invariant distributions over R^d. A multidimensional distribution is "shift-invariant" if, roughly speaking, it is close in total variation distance to a small shift of it in any direction. Shift-invariance relaxes smoothness assumptions commonly used in non-parametric density estimation to allow jump discontinuities. The different classes of distributions that we consider correspond to different rates of tail decay. For each such class we give an efficient algorithm that learns any distribution in the class from independent samples with respect to total variation distance. As a special case of our general result, we show that d-dimensional shift-invariant distributions which satisfy an exponential tail bound can be learned to total variation distance error epsilon using O~_d(1/ epsilon^{d+2}) examples and O~_d(1/ epsilon^{2d+2}) time. This implies that, for constant d, multivariate log-concave distributions can be learned in O~_d(1/epsilon^{2d+2}) time using O~_d(1/epsilon^{d+2}) samples, answering a question of [Diakonikolas et al., 2016]. All of our results extend to a model of noise-tolerant density estimation using Huber's contamination model, in which the target distribution to be learned is a (1-epsilon,epsilon) mixture of some unknown distribution in the class with some other arbitrary and unknown distribution, and the learning algorithm must output a hypothesis distribution with total variation distance error O(epsilon) from the target distribution. We show that our general results are close to best possible by proving a simple Omega (1/epsilon^d) information-theoretic lower bound on sample complexity even for learning bounded distributions that are shift-invariant.

研究の動機と目的

Sobolev空間およびBesov空間を一般化する新しい滑らかさ条件—シフト不変性—を定義し、多次元密度にジャンプ不連続性を許容することを目的とする。
制御された尾部減衰を有するシフト不変分布のための効率的学習アルゴリズムを設計し、滑らかでないパラメトリックモデルを超える実用的密度推定を可能とすることを目的とする。
合計変動距離の下で、このような分布を学習するためのタイトなサンプルおよび時間計算量の境界を確立することを目的とする。
Huberの混合モデルにおけるノイズ耐性学習にフレームワークを拡張し、ターゲットがクラスに属する分布と任意の外れ値分布の混合（1−ε, ε）である場合にも適用可能であることを目的とする。
情報理論的下界Ω(1/ε^d)を確立することで、提案された境界がほぼ最適であることを証明することを目的とする。

提案手法

密度fの方向vにおけるスケールκでの微小なシフトに対する平均変化率を捉える定量的シフト不変性測度SI(f, v, κ)を導入する。
すべてのκ > 0に対してSI(f, κ) ≤ cを満たし、非増加関数gによって尾部減衰が制御されるd次元密度のクラスCSI(c, d, g)を定義する。
シフト不変性を活用してバイアスとバイアスの両方を制御するため、経験分布のカーネル平滑化による仮説分布を構築する。
ドメインを単位立方体に離散化し、区分的定数密度の族を構築することで、サンプル複雑度の下界を導出する。
Kullback-Leibler発散度および合計変動距離を用いた情報理論的道具を適用し、適切に構築された密度族に対するパッキング議論を通じて下界を導出する。
同じアルゴリズムが、ターゲットがクラスに属する分布と任意の外れ値分布の混合（1−ε, ε）である場合でもO(ε)の合計変動誤差を達成できることを示すことにより、フレームワークをHuberの混合モデルに拡張する。

実験結果

リサーチクエスチョン

RQ1シフト不変性は、ジャンプ不連続性を許容しつつも、軽尾行動を捉える滑らかさ条件として、ジャンプ不連続性を有する分布の効率的密度推定に利用可能か？
RQ2指数的尾部減衰を示すd次元シフト不変分布を学習するための最適なサンプルおよび時間計算量は何か？
RQ3学習フレームワークは、Huberの混合モデルのように、データに悪意のある混合が存在する場合にも耐性を持たせられるか？
RQ4提案されたサンプル複雑度は、このクラスの分布に対する情報理論的限界にどの程度近いか？
RQ5シフト不変性条件は、等方的対数凸性および多変量正規分布といった重要な分布を含む十分に一般化可能か？

主な発見

本稿では、d次元シフト不変分布で指数的尾部減衰を示すものについて、合計変動距離誤差εを達成するため、Õd(1/ε^{d+2})個のサンプルとÕd(1/ε^{2d+2})の時間で学習可能であることを確立した。これは定数dに対して効率的である。
特に、多変量対数凸分布は、Õd(1/ε^{d+2})個のサンプルとÕd(1/ε^{2d+2})の時間で学習可能であり、DKS16bで未解決であった問題に答えている。
フレームワークはHuberの混合モデルに対してもロバストである。アルゴリズムは、ターゲットがクラスに属する分布と任意の外れ値分布の混合（1−ε, ε）である場合でも、合計変動誤差O(ε)を達成する。
提案されたサンプル複雑度は、ほぼ最適であり、有界かつシフト不変な分布を学習するにあたり、Ω(1/ε^d)の情報理論的下界を証明することで示された。
クラスCSI(c, d, g)は、等方的対数凸性および多変量正規分布といった重要な分布を含むが、依然として効率的学習が可能である。
下界構築には、離散化ドメイン上の区分的定数密度族を用い、ペアワイズ合計変動距離がΩ(ε)、KL発散度がO(1)となるように構成した。これにより、Ω((1/ε)^d)のサンプル複雑度下界が確立された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。