QUICK REVIEW

[论文解读] Improved Central Limit Theorem and bootstrap approximations in high dimensions

Victor Chernozhukov, Denis Chetverikov|arXiv (Cornell University)|Dec 22, 2019

Statistical Methods and Inference被引用 25

一句话总结

本文通过一种迭代随机化林德贝格方法，提出了一种改进的中心极限定理和高维最大统计量的自助法近似，实现了更紧致的误差界。其核心结果为：近似误差被界定为 $ C\left(\frac{\log^5(pn)}{n}\right)^{1/4} $，显著优于以往的界，使得在 $ p \gg n $ 的高维设定下能够实现精确推断。

ABSTRACT

This paper deals with the Gaussian and bootstrap approximations to the distribution of the max statistic in high dimensions. This statistic takes the form of the maximum over components of the sum of independent random vectors and its distribution plays a key role in many high-dimensional econometric problems. Using a novel iterative randomized Lindeberg method, the paper derives new bounds for the distributional approximation errors. These new bounds substantially improve upon existing ones and simultaneously allow for a larger class of bootstrap methods.

研究动机与目标

解决高维情形下最大统计量的高斯分布与自助法近似缺乏精确界的问题。
改进现有在 $ n $ 和 $ p $ 上表现较差的界，尤其在 $ p \gg n $ 的情形下。
构建一个统一框架，适用于高斯自助法与一般自助法（包括乘子自助法与经验自助法）。
提供一个理论基础坚实、计算上可行的高维推断方法，且误差率可控。
在高维回归、多重假设检验与模型置信集等应用中实现精确推断。

提出的方法

提出一种新颖的迭代随机化林德贝格方法，以改进经典林德贝格方法在高维中心极限定理中的应用。
结合斯坦方法与随机化、迭代构造，以控制分布近似中的误差。
引入斯坦核与矩匹配技术，以提升收敛速度。
将该方法应用于推导最大统计量 $ T_n = \max_{1 \leq j \leq p} \frac{1}{\sqrt{n}} \sum_{i=1}^n (X_{ij} - \mu_j) $ 的误差界，条件为较弱的矩与依赖性假设。
将该框架扩展至涵盖一般乘子自助法（如高斯、拉德马赫权重），而不仅限于三阶匹配。
在所有 $ p $ 个分量上建立一致界，确保当 $ p $ 随 $ n $ 增长时仍具有效性。

实验结果

研究问题

RQ1能否将高维最大统计量高斯近似误差界改进至超过 $ O\left(\left(\frac{\log^7(pn)}{n}\right)^{1/6}\right) $？
RQ2改进后的界是否适用于更广泛的自助法类别，包括一般乘子自助法与经验自助法？
RQ3能否在保持对 $ p $ 的对数依赖性的同时，将 $ n $ 的收敛速率从 $ n^{-1/6} $ 提升至 $ n^{-1/4} $？
RQ4新界在 $ p $ 与 $ n $ 上的依赖性有多紧致？与已知下界相比如何？
RQ5该方法能否在结构化假设下扩展至非独立同分布或依赖的高维数据？

主要发现

本文为高斯与自助法临界值均建立了新界：$ \left| \mathbb{P}(T_n > c_{1-\alpha}) - \alpha \right| \leq C\left(\frac{\log^5(pn)}{n}\right)^{1/4} $。
该界将 $ n $ 的指数从 $ 1/6 $ 提升至 $ 1/4 $，显著加快了高维设定下的收敛速度。
该界适用于一般乘子自助法（如高斯、拉德马赫权重），而不仅限于三阶匹配或经验自助法。
该方法将以往界中 $ \log p = o(n^{1/5}) $ 的限制改进为 $ \log p = o(n^{1/4}) $，扩展了可实现精确推断的范围。
蒙特卡洛模拟结果支持理论发现，在各种设计与分布下，拒绝率接近名义水平。
在额外结构假设下（如非退化协方差、对数凹密度），可进一步改进至 $ O\left(\left(\frac{\log^4(pn)}{n}\right)^{1/3}\right) $ 与 $ O\left(\left(\frac{\log^3 p}{n}\right)^{1/2} \log n\right) $。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。