Skip to main content
QUICK REVIEW

[论文解读] Wasserstein-p Central Limit Theorem Rates: From Local Dependence to Markov Chains

Yixuan Zhang, Qiaomin Xie|arXiv (Cornell University)|Jan 13, 2026
Random Matrices and Applications被引用 0
一句话总结

本文在温和矩条件下,提出多变量局部相关数据与几何遍历马尔可夫链的最优Wasserstein-1和Wasserstein-p CLT 速率,并将结果应用于U统计量。

ABSTRACT

Finite-time central limit theorem (CLT) rates play a central role in modern machine learning. In this paper, we study CLT rates for multivariate dependent data in Wasserstein-$p$ ($W_p$) distance, for general $p \geq 1$. We focus on two fundamental dependence structures that commonly arise in machine learning: locally dependent sequences and geometrically ergodic Markov chains. In both settings, we establish the first optimal $O(n^{-1/2})$ rate in $W_1$, as well as the first $W_p$ ($p\ge 2$) CLT rates under mild moment assumptions, substantially improving the best previously known bounds in these dependent-data regimes. As an application of our optimal $W_1$ rate for locally dependent sequences, we further obtain the first optimal $W_1$-CLT rate for multivariate $U$-statistics. On the technical side, we derive a tractable auxiliary bound for $W_1$ Gaussian approximation errors that is well suited for studying dependent data. For Markov chains, we further prove that the regeneration time of the split chain associated with a geometrically ergodic chain has a geometric tail without assuming strong aperiodicity or other restrictive conditions. These tools may be of independent interests and enable our optimal $W_1$ rates and underpin our $W_p$ ($p\ge 2$) results.

研究动机与目标

  • 量化多变量相关数据在Wasserstein距离中的有限时间高斯近似误差。
  • 在温和矩假设下,推导局部相关数据与马尔可夫链的Wasserstein-1最优CLT速率。
  • 在M-依赖数据中,将CLT速率扩展到Wasserstein-p距离(p≥2)。
  • 将Wasserstein-1 CLT结果应用于多变量U统计量。
  • 在相关 setting 中引入可处理的W1高斯近似误差界。

提出的方法

  • 将Raič的高斯近似框架扩展到相关数据,通过构建新的对象来捕捉相关性。
  • 推导一个关于S_n在给定单个求和项条件下其分布变化所导致的W1高斯近似误差的辅助界。
  • 使用大-小块分解将M依赖之和化简为独立块并优化块长。
  • 对于马尔可夫链,采用分裂链构造获得再生分解并分析时间反向链。
  • 在有限的(2+δ)矩条件下证明与独立同分布基准匹配的W1速率,并在温和矩条件下给出Wp(p≥2)速率。
  • 通过利用局部相关数据的W1 CLT,将结果应用于U统计量。

实验结果

研究问题

  • RQ1在温和矩条件下,多变量局部相关数据的Wasserstein距离下的最优CLT速率是多少?
  • RQ2对于M依赖的多变量序列,在Wasserstein-p距离(p≥2)能达到怎样的CLT速率?
  • RQ3在没有强烈周期性假设的情况下,是否可以得到几何遍历马尔可夫链的W1速率?
  • RQ4如何利用分裂链再生来推导马尔可夫链的多变量Wasserstein CLT速率?
  • RQ5这些速率对多变量U-统计量有何影响?

主要发现

  • 本文在多变量局部相关序列下,在有限三阶矩假设下,首次建立了Wasserstein-1的最优O(n^{-1/2})速率。
  • 对于δ在(0,1]的情形,在局部相关数据的有限(2+δ)矩条件下,证明W1的O(n^{-δ/2})速率。
  • 对于M依赖数据,在有限(p+q)矩界下且q∈(0,2]时,在Wp(p≥2)上得到O(n^{-(p+q-2)/(2(2p+q-2))})速率。
  • 在马尔可夫链情形,分裂链的再生时间具有几何尾性且不需要严格非周期性条件,从而实现几何遍历链的W1 CLT速率。
  • 通过实现几何遍历马尔可夫链的W1速率并提供与M依赖数据相符的Wp速率,解决了若干开放问题。
  • 结果给出在局部相关框架下多变量U-统计量的第一個W1 CLT速率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。