Skip to main content
QUICK REVIEW

[論文レビュー] Optimal Testing for Properties of Distributions

Jayadev Acharya, Constantinos Daskalakis|arXiv (Cornell University)|Jul 21, 2015
Machine Learning and Algorithms参考文献 21被引用数 44
ひとこと要約

本稿では、カイ二乗距離と全変動距離を用いて、既知の基準分布と比較することで、離散確率分布の基本的性質(単調性、対数凹性、一峰性、独立性、単調ハザードレートなど)を一般的かつサンプル最適かつ計算的に効率的なテストフレームワークとして提示する。主な貢献は、1変数の性質に対して $ϴ(√n}/\varepsilon^2)$、$d$ 次元における単調性に対して $ϴ(n^{d/2}/\varepsilon^2)$ のタイトなサンプル複雑度バウンドを確立することである。これに一致する下界も示されている。

ABSTRACT

Given samples from an unknown distribution $p$, is it possible to distinguish whether $p$ belongs to some class of distributions $\mathcal{C}$ versus $p$ being far from every distribution in $\mathcal{C}$? This fundamental question has received tremendous attention in statistics, focusing primarily on asymptotic analysis, and more recently in information theory and theoretical computer science, where the emphasis has been on small sample size and computational complexity. Nevertheless, even for basic properties of distributions such as monotonicity, log-concavity, unimodality, independence, and monotone-hazard rate, the optimal sample complexity is unknown. We provide a general approach via which we obtain sample-optimal and computationally efficient testers for all these distribution families. At the core of our approach is an algorithm which solves the following problem: Given samples from an unknown distribution $p$, and a known distribution $q$, are $p$ and $q$ close in $χ^2$-distance, or far in total variation distance? The optimality of our testers is established by providing matching lower bounds with respect to both $n$ and $\varepsilon$. Finally, a necessary building block for our testers and an important byproduct of our work are the first known computationally efficient proper learners for discrete log-concave and monotone hazard rate distributions.

研究の動機と目的

  • 離散分布の基本的形状性質(単調性、対数凹性、一峰性、独立性、単調ハザードレートなど)のサンプル複雑度のギャップを埋めること。
  • すべてのこれらの分布族に対して最適なサンプル複雑度と計算効率を達成する統一されたテストフレームワークを開発すること。
  • 上界と一致するタイトな下界を確立し、提案されたテストャーが $n$ および $\varepsilon$ に関して最適であることを証明すること。
  • 離散対数凹性および単調ハザードレート分布の最初に知られる計算的に効率的な正しい学習器を副産物として提供すること。

提案手法

  • コアとなる手法は、未知の分布 $p$ が既知の分布 $q$ と $\chi^2$-距離で近いか、全変動距離で遠いかを識別するアルゴリズムであり、$\Theta(\sqrt{n}/\varepsilon^2)$ のサンプルを必要とする。
  • フレームワークは、性質テストをこの $\chi^2$-対-TV 距離識別問題に還元し、さまざまな分布クラスのサンプル最適なテストャーを可能にする。
  • 単調性テスト($[n]^d$ 上)では、一様分布から構造的に異なる $2^{n^{d/2}/2}$ 個の分布のクラスを構築し、パナインスキーの手法を適用して下界を導出する。
  • 独立性テストでは、ハイパーグリッド $[n_1] \times \cdots \times [n_d]$ 上で積分布から遠い分布の大きなクラスを構築し、自由度の議論とパナインスキーの技術を活用する。
  • 対数凹性および一峰性分布に対しては、任意のこのような分布が、上昇点を分析し、区間上で三角不等式を適用することで、構築された分布クラスから $\varepsilon$-遠く離れていることを示す。
  • 単調ハザードレート(MHR)分布に対しては、中心区間 $[n/4, 3n/4]$ 内に少なくとも $n/8$ 個の上昇点を特定し、$p_i$ と $p_{i+1}$ の境界を用いて全変動距離の下界 $\Omega(\varepsilon)$ を導出する。

実験結果

リサーチクエスチョン

  • RQ1与えられた $\varepsilon$-距離で $[n]$ 上の分布が単調であるかどうかをテストするための最適なサンプル複雑度は何か?
  • RQ2$d$ 次元のハイパーグリッド上での独立性テストにおけるサンプル複雑度はどのようにスケーリングされるか?
  • RQ3複数の分布性質に対してサンプル最適かつ計算的に効率的なテストを達成できる統一されたフレームワークを設計できるか?
  • RQ4小サンプル領域において、対数凹性、一峰性、および単調ハザードレートのテストのための最良の下界は何か?
  • RQ5このテストフレームワークの副産物として、対数凹性および単調ハザードレート分布の効率的な正しい学習アルゴリズムを構築できるか?

主な発見

  • 任意の $[n]$ 上の分布への同一性テストには $\Theta(\sqrt{n}/\varepsilon^2)$ のサンプルが必要であり、これは一様分布に対して最適であり、ミニマックスのサンプル複雑度と一致する。
  • $[n]^d$ 上での単調性テストには $\Theta(n^{d/2}/\varepsilon^2)$ のサンプルが必要であり、1次元では従来の $\Omega(\sqrt{n}\log n / \varepsilon^4)$ よりも改善され、高次元では $\tilde{\Omega}(n^{d-1/2}\text{poly}(1/\varepsilon))$ よりも良好である。
  • $[n_1] \times \cdots \times [n_d]$ 上の $d$ 個の確率変数の独立性テストには $O\left(\left(\prod_{l}n_{l}\right)^{1/2} + \sum_{l}n_{l}\right)/\varepsilon^2$ のサンプルが必要であり、下界も $\Omega\left(\left(\prod_{l}n_{l}\right)^{1/2}/\varepsilon^2\right)$ で一致する。
  • $[n]$ 上での対数凹性、一峰性、単調ハザードレートのテストはそれぞれ $\Theta(\sqrt{n}/\varepsilon^2)$ のサンプルを要し、構造化された分布クラスと上昇点解析により下界が確立された。
  • このフレームワークにより、離散対数凹性および単調ハザードレート分布の最初に知られる計算的に効率的な正しい学習器が得られ、テストパイプラインにとって不可欠である。
  • すべての検討された性質について、$n$ および $\varepsilon$ に関して一致する下界を証明することで、テストャーの最適性を確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。