Skip to main content
QUICK REVIEW

[论文解读] Central limit theorems for functionals of large sample covariance matrix and mean vector in matrix-variate location mixture of normal distributions

Taras Bodnar, Stepan Mazur|arXiv (Cornell University)|Feb 17, 2016
Random Matrices and Applications参考文献 42被引用 13
一句话总结

本文在高维矩阵变量子分布位置混合正态分布(MVLMN)下,建立了样本协方差矩阵与均值向量相关双线性形式的中心极限定理(CLTs)。在大维渐近框架($p/n \to c \in [0, \infty)$)下,推导了 $\mathbf{l}^\top S\mathbf{x}$ 与 $\mathbf{l}^\top S^{-1}\mathbf{x}$ 的渐近分布,表明即使协方差矩阵为奇异矩阵,这些形式仍收敛于正态分布。主要贡献在于将经典 CLTs 扩展至更一般、偏斜且依赖的数据模型,并通过理论与数值验证予以支持。

ABSTRACT

In this paper we consider the asymptotic distributions of functionals of the sample covariance matrix and the sample mean vector obtained under the assumption that the matrix of observations has a matrix-variate location mixture of normal distributions. The central limit theorem is derived for the product of the sample covariance matrix and the sample mean vector. Moreover, we consider the product of the inverse sample covariance matrix and the mean vector for which the central limit theorem is established as well. All results are obtained under the large-dimensional asymptotic regime where the dimension $p$ and the sample size $n$ approach to infinity such that $p/n o c\in[0 , +\infty)$ when the sample covariance matrix does not need to be invertible and $p/n o c\in [0, 1)$ otherwise.

研究动机与目标

  • 将经典中心极限定理(CLTs)在样本协方差与均值向量泛函上的结果,推广至灵活的非椭圆分布模型下的高维设定。
  • 在矩阵变量子分布位置混合正态(MVLMN)分布下,发展双线性形式 $\mathbf{l}^\top S\mathbf{x}$ 与 $\mathbf{l}^\top S^{-1}\mathbf{x}$ 的渐近理论,该分布推广了偏正态分布与生长曲线模型。
  • 在高维渐近框架下建立 CLTs,其中 $p, n \to \infty$ 且 $p/n \to c \in [0, \infty)$,包括样本协方差矩阵为奇异矩阵的情形。
  • 通过蒙特卡洛模拟验证理论结果,针对混合变量 $\nu$ 的多种分布,包括截断正态分布与广义偏斜拉普拉斯分布。

提出的方法

  • 提出一种半参数矩阵变量子分布位置混合正态(MVLMN)模型:$\mathbf{X} \stackrel{d}{=} \mathbf{Y} + \mathbf{B}\boldsymbol{\nu}^\top$,其中 $\mathbf{Y} \sim N_{p,n}(\boldsymbol{\mu}\mathbf{1}_n^\top, \boldsymbol{\Sigma} \otimes \mathbf{I}_n)$ 且 $\boldsymbol{\nu}$ 为具有密度 $f_\nu$ 的一般随机向量。
  • 在 MVLMN 模型下推导样本均值 $\mathbf{x}$ 与样本协方差 $\mathbf{S}$ 的精确随机表示,表明在此模型下 $\mathbf{x}$ 与 $\mathbf{S}$ 相互独立。
  • 通过涉及 $\chi^2_{n-1}$、正态与高斯变量的随机表示,建立 $\mathbf{l}^\top \mathbf{S}\mathbf{x}$ 的 CLT,并从模型参数中推导出极限方差。
  • 在 $p/n \to c \in [0,1)$ 条件下,推导 $\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x}$ 的 CLT,采用涉及 $\chi^2_{n-p}$ 与 $F$-分布变量的表示,其极限方差考虑了偏度与高维性。
  • 利用蒙特卡洛模拟验证 $\sqrt{n}\sigma^{-1}_\nu(\mathbf{l}^\top \mathbf{S}\mathbf{x} - \mathbf{l}^\top \boldsymbol{\Sigma} \boldsymbol{\mu}_\nu)$ 与 $\sqrt{n}\tilde{\sigma}^{-1}_\nu(\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x} - \frac{1}{1-c}\mathbf{l}^\top \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu} + \mathbf{B}\boldsymbol{\omega}))$ 的渐近正态性。
  • 采用 Epanechnikov 带宽与交叉验证的核密度估计,将模拟分布与理论渐近正态分布进行比较。

实验结果

研究问题

  • RQ1在高维渐近下,MVLMN 模型中乘积 $\mathbf{l}^\top \mathbf{S}\mathbf{x}$ 是否收敛于正态分布?
  • RQ2当 $p/n \to c \in [0,1)$ 时,即使 $\mathbf{S}$ 为奇异矩阵,乘积 $\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x}$ 是否仍满足中心极限定理?
  • RQ3渐近正态近似对混合分布 $f_\nu$ 的选择(如截断正态或广义偏斜拉普拉斯)有多稳健?
  • RQ4理论 CLT 对 $\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x}$ 是否可在有限样本中准确模拟并验证?

主要发现

  • 在高维渐近框架 $p/n \to c \in [0, \infty)$ 下,$\sqrt{n}\sigma^{-1}_\nu(\mathbf{l}^\top \mathbf{S}\mathbf{x} - \mathbf{l}^\top \boldsymbol{\Sigma} \boldsymbol{\mu}_\nu)$ 的渐近分布收敛于标准正态分布 $N(0,1)$。
  • 对于 $\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x}$,渐近分布 $\sqrt{n}\tilde{\sigma}^{-1}_\nu\left(\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x} - \frac{1}{1-c}\mathbf{l}^\top \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu} + \mathbf{B}\boldsymbol{\omega})\right)$ 在 $p/n \to c \in [0,1)$ 且 $q/n \to \gamma > 0$ 时收敛于 $N(0,1)$。
  • $\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x}$ 的极限方差 $\tilde{\sigma}^2$ 明确推导为 $\frac{1}{(1-c)^3}\left(\left(\mathbf{l}^\top \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu} + \mathbf{B}\boldsymbol{\omega})\right)^2 + \mathbf{l}^\top \boldsymbol{\Sigma}^{-1}\mathbf{l}(1 + (\boldsymbol{\mu} + \mathbf{B}\boldsymbol{\omega})^\top \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu} + \mathbf{B}\boldsymbol{\omega}))\right)$。
  • 蒙特卡洛模拟表明,即使在 $c = 0.95$ 时,$\mathbf{l}^\top \mathbf{S}\mathbf{x}$ 与 $\mathbf{l}^\top \mathbf{S}^{-1}\mathbf{x}$ 的渐近正态近似仍准确,表明在高维设置下具有鲁棒性。
  • 在有限样本中,理论渐近分布略显偏斜,尤其在 $\boldsymbol{\nu}$ 服从广义偏斜拉普拉斯分布时,但随着 $n$ 与 $p$ 增大,偏度逐渐减小。
  • 所提出的 CLTs 不要求样本协方差矩阵可逆,使其适用于经典 CLTs 失效的奇异与高维设定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。