QUICK REVIEW

[論文レビュー] Optimal Algorithms for Testing Closeness of Discrete Distributions

Siu-On Chan, Ilias Diakonikolas|arXiv (Cornell University)|Aug 19, 2013

Complexity and Algorithms in Graphs参考文献 21被引用数 124

ひとこと要約

本稿では、ℓ₁およびℓ₂距離測度の下で離散確率分布の近さテストの最適で単純なテスト手法を提示する。新規のモーメントに基づく解析を導入し、既存の下界フレームワークを活用することで、タイトなサンプル複雑性バウンド—ℓ₁ではΘ(max{n²/³/ε⁴/³, n¹/²/ε²})、ℓ₂ではΘ(√b/ε²) — を確立し、定数要因を除いて情報理論的最適性を達成する。

ABSTRACT

We study the question of closeness testing for two discrete distributions. More precisely, given samples from two distributions $p$ and $q$ over an $n$-element set, we wish to distinguish whether $p=q$ versus $p$ is at least $\eps$-far from $q$, in either $\ell_1$ or $\ell_2$ distance. Batu et al. gave the first sub-linear time algorithms for these problems, which matched the lower bounds of Valiant up to a logarithmic factor in $n$, and a polynomial factor of $\eps.$ In this work, we present simple (and new) testers for both the $\ell_1$ and $\ell_2$ settings, with sample complexity that is information-theoretically optimal, to constant factors, both in the dependence on $n$, and the dependence on $\eps$; for the $\ell_1$ testing problem we establish that the sample complexity is $Θ(\max\{n^{2/3}/\eps^{4/3}, n^{1/2}/\eps^2 \}).$

研究の動機と目的

二つの離散確率分布が同一か、それともℓ₁距離でε-遠いかをテストするための長年の未解決問題である、最適なサンプル複雑性を特定すること。
情報理論的下界に定数要因を除いて一致するサンプル複雑性を持つ、計算的に効率の良いテスト手法を設計すること。
ℓ₂距離設定への解析の拡張を行い、近さテストにおける最適性とロバスト性の性質を確立すること。
従来の研究とは異なり、nおよびεにおける対数的および多項式的要因を排除することで、部分的に最適でないサンプルバウンドを改善する、より単純な代替手法を提供すること。

提案手法

pとqの標本からの経験的モーメントを比較することで、p=qと||p−q||₁≥εを区別する、新しいモーメントに基づくテストフレームワークを提案する。
ℓ₁距離が制御され、ℓ∞ノルムが有界となるような分布pとqの新規な構成を用いて、モーメント比較による下界を導出する。
先行研究の定理8を適用し、サンプルサイズが閾値未満の場合に(p,p)と(p,q)のペアが区別不能であることを示し、下界を証明する。
VV13の定理10を活用し、pに対する摂動族Qp,εを構築し、サンプルサイズによる区別可能性を分析することで、ℓ₂テストの下界を導出する。
学習・推定のアプローチを避けるために、モーメント空間における支配的寄与に注目することで、最適なサンプル複雑性を達成するテスト手法を設計する。
同じサンプル複雑性が||p−q||₂≤εと||p−q||₂≥2εを区別できることを示すことで、ℓ₂テストにおけるロバスト性を確立する。

実験結果

リサーチクエスチョン

RQ1二つの離散確率分布が同一か、それともℓ₁距離でε-遠いかをテストするための最適なサンプル複雑性は何か？
RQ2情報理論的下界に定数要因を除いて一致する、より単純で効率の良いテスト手法を設計できるか？
RQ3ℓ₂ノルム下での近さテストの最適なサンプル複雑性は何か？また、ロバストテスト（ε vs 2εを区別）は非ロバストテストよりも多くのサンプルを要するか？
RQ4ℓ₁およびℓ₂近さテストのサンプル複雑性バウンドはどのように比較できるか？また、ロバスト性が二つの設定で異なる挙動を示す理由は何か？

主な発見

ℓ₁近さテストのサンプル複雑性はΘ(max{n²/³/ε⁴/³, n¹/²/ε²})であり、定数要因を除いて問題が解決された。
提案されたℓ₁テスト手法は、従来のアプローチよりも単純で効率的であり、学習・推定のパラダイムを回避している。
ℓ₂近さテストでは、最適なサンプル複雑性がΘ(√b/ε²)であり、bは最大確率質量の上界である。
ロバストℓ₂テスト（ε vs 2εを区別）は、非ロバストテストと同一のサンプル複雑性で可能であり、ℓ₁とは異なり、より多くのサンプルを要しない。
ℓ₁テストの下界は、(p,p)と(p,q)がcn²/³ε⁻⁴/³未満のサンプルでは区別不能であるような構成を用い、モーメント比較によって確立された。
ℓ₂テストの下界は、定理10を均等分布（1/b要素）に適用し、摂動ε√bを加えることで導出され、c√b/ε²未満のサンプルでは、任意のアルゴリズムがpとQp,εに属するランダムなqを高確率で区別できないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。