[论文解读] Wasserstein-p Central Limit Theorem Rates: From Local Dependence to Markov Chains
本文在温和矩条件下,提出多变量局部相关数据与几何遍历马尔可夫链的最优Wasserstein-1和Wasserstein-p CLT 速率,并将结果应用于U统计量。
Finite-time central limit theorem (CLT) rates play a central role in modern machine learning. In this paper, we study CLT rates for multivariate dependent data in Wasserstein-$p$ ($W_p$) distance, for general $p \geq 1$. We focus on two fundamental dependence structures that commonly arise in machine learning: locally dependent sequences and geometrically ergodic Markov chains. In both settings, we establish the first optimal $O(n^{-1/2})$ rate in $W_1$, as well as the first $W_p$ ($p\ge 2$) CLT rates under mild moment assumptions, substantially improving the best previously known bounds in these dependent-data regimes. As an application of our optimal $W_1$ rate for locally dependent sequences, we further obtain the first optimal $W_1$-CLT rate for multivariate $U$-statistics. On the technical side, we derive a tractable auxiliary bound for $W_1$ Gaussian approximation errors that is well suited for studying dependent data. For Markov chains, we further prove that the regeneration time of the split chain associated with a geometrically ergodic chain has a geometric tail without assuming strong aperiodicity or other restrictive conditions. These tools may be of independent interests and enable our optimal $W_1$ rates and underpin our $W_p$ ($p\ge 2$) results.
研究动机与目标
- 量化多变量相关数据在Wasserstein距离中的有限时间高斯近似误差。
- 在温和矩假设下,推导局部相关数据与马尔可夫链的Wasserstein-1最优CLT速率。
- 在M-依赖数据中,将CLT速率扩展到Wasserstein-p距离(p≥2)。
- 将Wasserstein-1 CLT结果应用于多变量U统计量。
- 在相关 setting 中引入可处理的W1高斯近似误差界。
提出的方法
- 将Raič的高斯近似框架扩展到相关数据,通过构建新的对象来捕捉相关性。
- 推导一个关于S_n在给定单个求和项条件下其分布变化所导致的W1高斯近似误差的辅助界。
- 使用大-小块分解将M依赖之和化简为独立块并优化块长。
- 对于马尔可夫链,采用分裂链构造获得再生分解并分析时间反向链。
- 在有限的(2+δ)矩条件下证明与独立同分布基准匹配的W1速率,并在温和矩条件下给出Wp(p≥2)速率。
- 通过利用局部相关数据的W1 CLT,将结果应用于U统计量。
实验结果
研究问题
- RQ1在温和矩条件下,多变量局部相关数据的Wasserstein距离下的最优CLT速率是多少?
- RQ2对于M依赖的多变量序列,在Wasserstein-p距离(p≥2)能达到怎样的CLT速率?
- RQ3在没有强烈周期性假设的情况下,是否可以得到几何遍历马尔可夫链的W1速率?
- RQ4如何利用分裂链再生来推导马尔可夫链的多变量Wasserstein CLT速率?
- RQ5这些速率对多变量U-统计量有何影响?
主要发现
- 本文在多变量局部相关序列下,在有限三阶矩假设下,首次建立了Wasserstein-1的最优O(n^{-1/2})速率。
- 对于δ在(0,1]的情形,在局部相关数据的有限(2+δ)矩条件下,证明W1的O(n^{-δ/2})速率。
- 对于M依赖数据,在有限(p+q)矩界下且q∈(0,2]时,在Wp(p≥2)上得到O(n^{-(p+q-2)/(2(2p+q-2))})速率。
- 在马尔可夫链情形,分裂链的再生时间具有几何尾性且不需要严格非周期性条件,从而实现几何遍历链的W1 CLT速率。
- 通过实现几何遍历马尔可夫链的W1速率并提供与M依赖数据相符的Wp速率,解决了若干开放问题。
- 结果给出在局部相关框架下多变量U-统计量的第一個W1 CLT速率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。