Skip to main content
QUICK REVIEW

[论文解读] Optimal Algorithms for Testing Closeness of Discrete Distributions

Siu-On Chan, Ilias Diakonikolas|arXiv (Cornell University)|Aug 19, 2013
Complexity and Algorithms in Graphs参考文献 21被引用 124
一句话总结

本文在 ℓ₁ 和 ℓ₂ 距离度量下,为离散概率分布的接近性检测提出了最优且简单的测试方法。通过引入新颖的矩分析方法并利用现有的下界框架,建立了紧致的样本复杂度界限——ℓ₁ 下为 Θ(max{n²/³/ε⁴/³, n¹/²/ε²}),ℓ₂ 下为 Θ(√b/ε²),在常数因子范围内实现了信息论最优性。

ABSTRACT

We study the question of closeness testing for two discrete distributions. More precisely, given samples from two distributions $p$ and $q$ over an $n$-element set, we wish to distinguish whether $p=q$ versus $p$ is at least $\eps$-far from $q$, in either $\ell_1$ or $\ell_2$ distance. Batu et al. gave the first sub-linear time algorithms for these problems, which matched the lower bounds of Valiant up to a logarithmic factor in $n$, and a polynomial factor of $\eps.$ In this work, we present simple (and new) testers for both the $\ell_1$ and $\ell_2$ settings, with sample complexity that is information-theoretically optimal, to constant factors, both in the dependence on $n$, and the dependence on $\eps$; for the $\ell_1$ testing problem we establish that the sample complexity is $Θ(\max\{n^{2/3}/\eps^{4/3}, n^{1/2}/\eps^2 \}).$

研究动机与目标

  • 解决长期悬而未决的开放问题:确定测试两个离散分布是否在 ℓ₁ 距离下相同或 ε-远的最优样本复杂度。
  • 设计一种计算高效的测试器,其样本复杂度在常数因子范围内匹配信息论下界。
  • 将分析扩展至 ℓ₂ 距离设置,确立接近性测试的最优性与鲁棒性特性。
  • 提供一种比以往工作更简单、更优的替代方法,通过消除 n 和 ε 的对数及多项式因子,改进了次优的样本复杂度界限。

提出的方法

  • 提出一种新的基于矩的测试框架,通过比较来自 p 和 q 的样本的经验矩,以区分 p=q 与 ||p−q||₁≥ε 的情况。
  • 通过构造具有受控 ℓ₁ 距离和有界 ℓ∞ 范数的分布 p 和 q,利用矩比较推导下界。
  • 应用先前工作中的定理 8,证明当样本量低于阈值时,(p,p) 和 (p,q) 对对不可区分,从而证明下界。
  • 利用 [VV13] 中的定理 10,通过构造扰动族 Qp,ε 并分析样本大小下的可区分性,推导 ℓ₂ 测试的下界。
  • 设计一种测试器,通过聚焦于矩空间中的主导贡献,避免使用学习-估计方法,从而实现最优样本复杂度。
  • 通过证明相同的样本复杂度可区分 ||p−q||₂≤ε 与 ||p−q||₂≥2ε,建立 ℓ₂ 测试的鲁棒性。

实验结果

研究问题

  • RQ1测试两个离散分布是否在 ℓ₁ 距离下相同或 ε-远的最优样本复杂度是多少?
  • RQ2能否设计一种更简单、更高效的测试器,使其在 ℓ₁ 接近性测试中达到信息论下界?
  • RQ3在 ℓ₂ 范数下,接近性测试的最优样本复杂度是多少?鲁棒测试(区分 ε 与 2ε)是否需要比非鲁棒测试更多的样本?
  • RQ4ℓ₁ 和 ℓ₂ 接近性测试的样本复杂度界限如何比较?为何在两种设置下鲁棒性表现不同?

主要发现

  • ℓ₁ 接近性测试的样本复杂度为 Θ(max{n²/³/ε⁴/³, n¹/²/ε²}),问题在常数因子范围内得以解决。
  • 所提出的 ℓ₁ 测试器比以往方法更简单、更高效,避免了学习-估计范式。
  • 对于 ℓ₂ 接近性测试,最优样本复杂度为 Θ(√b/ε²),其中 b 是最大概率质量的上界。
  • 鲁棒 ℓ₂ 测试(区分 ε 与 2ε)可使用与非鲁棒测试相同的样本复杂度完成,这与 ℓ₁ 情况不同。
  • ℓ₁ 测试的下界通过构造使得 (p,p) 和 (p,q) 在少于 cn²/³ε⁻⁴/³ 个样本下不可区分的分布实现,利用矩比较方法。
  • ℓ₂ 测试的下界通过将定理 10 应用于在 1/b 个元素上均匀分布并施加 ε√b 的扰动,证明任何算法都无法在少于 c√b/ε² 个样本下以高概率区分 p 与随机 q∈Qp,ε。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。