QUICK REVIEW

[论文解读] PAC-Bayesian bounds for the Gram matrix and least squares regression with a random design

Olivier Catoni|arXiv (Cornell University)|Mar 16, 2016

Random Matrices and Applications参考文献 13被引用 25

一句话总结

本文提出了一种在重尾分布下对格拉姆矩阵和协方差矩阵的鲁棒PAC-贝叶斯估计器，利用非渐近界在多项式矩假设下实现稳定估计。推导了普通最小二乘估计器的精确收敛速率，并提出了一种新颖的鲁棒最小二乘方法，在重尾噪声下显著降低了过度风险，仿真结果验证了其有效性。

ABSTRACT

The topics dicussed in this paper take their origin inthe estimation of the Gram matrix of a random vector from a sample made of n independent copies. They comprise the estimation of the covariance matrix and the study of least squares regression with a random design. We propose four types of results, based on non-asymptotic PAC-Bayesian generalization bounds: a new robust estimator of the Gram matrix and of the covariance matrix, new results on the empirical Gram matrix, new robust least squares estimators and new results on the ordinary least squares estimator, including its exact rate of convergence under polynomial moment assumptions.

研究动机与目标

在弱多项式矩假设下，特别是针对重尾分布，开发格拉姆矩阵 $ G = \mathbb{E}[XX^\top] $ 的鲁棒估计器。
利用PAC-贝叶斯技术，为经验格拉姆矩阵 $ \overline{G} = \frac{1}{n}\sum_{i=1}^n X_iX_i^\top $ 建立非渐近泛化界。
提出一种新的鲁棒最小二乘估计器，其在重尾噪声下的表现优于普通最小二乘法。
在多项式矩条件下，推导经验风险最小化器的过度风险 $ R(\widehat{\theta}) - \inf R(\theta) $ 的精确收敛速率。

提出的方法

该方法采用PAC-贝叶斯框架，对所有方向 $ \theta \in \mathbb{R}^d $ 统一有界估计误差 $ \left| \frac{N(\theta)}{\widehat{N}(\theta)} - 1 \right| $，其中 $ N(\theta) = \theta^\top G \theta $。
通过中位数-均值方法构造 $ N(\theta) $ 的鲁棒估计器，其尺度参数 $ \lambda(p) $ 由投影平方的样本方差推导得出。
利用极化恒等式 $ G_{i,j} = \frac{1}{4}[N(e_i + e_j) - N(e_i - e_j)] $，在当前估计的动态更新特征基下应用该恒等式来估计格拉姆矩阵。
该算法通过迭代方式更新格拉姆估计器：对当前估计 $ \widehat{G}(k) $ 进行对角化，在特征空间中应用鲁棒的 $ N(\theta) $ 估计器，并通过正交变换重新组合。
对于最小二乘回归，通过将鲁棒格拉姆矩阵估计器应用于 $ (X, -Y) $ 的分块形式，求解 $ \widehat{\theta} = -\widehat{G}_{1,1}^{-1}\widehat{G}_{1,2} $ 得到鲁棒估计器 $ \widehat{\theta} $，其中使用了广义逆矩阵。
采用牛顿型算法求解方程 $ \sum_{i=1}^n \psi[\lambda(S^{-1}p_i^2 - 1)] = 0 $ 的解 $ S(p, \lambda) $，用于稳定二次型的鲁棒估计。

实验结果

研究问题

RQ1能否在仅具有多项式矩假设的条件下，构造出具有非渐近泛化界的一致鲁棒格拉姆矩阵估计器？
RQ2在多项式矩条件下，普通最小二乘估计器的过度风险 $ R(\widehat{\theta}) - \inf R(\theta) $ 的精确收敛速率是什么？
RQ3在重尾噪声下，所提出的鲁棒最小二乘估计器与经验风险最小化器相比，在过度风险方面表现如何？
RQ4能否使用PAC-贝叶斯工具，在高概率下对所有 $ \theta \in \mathbb{R}^d $ 统一有界相对误差 $ \left| \frac{N(\theta)}{\widehat{N}(\theta)} - 1 \right| $？
RQ5在重尾设定下，基于迭代的鲁棒格拉姆矩阵估计器是否优于经验格拉姆矩阵？

主要发现

所提出的鲁棒估计器在高概率下实现了对 $ \left| \frac{N(\theta)}{\widehat{N}(\theta)} - 1 \right| $ 的统一有界，从而能够精确恢复 $ G $ 的零空间。
在假设 $ \sup_{\|\theta\|_2 \leq 1} \mathbb{E}[\langle\theta,X\rangle^4] \leq \kappa $ 下，推导出普通最小二乘估计器的过度风险的精确收敛速率，其中 $ \kappa $ 控制尾部的厚重程度。
在10%样本被 $ \mathcal{N}(0, 900) $ 成分污染的仿真中，与经验风险最小化器相比，鲁棒估计器将期望过度风险从1.7降低至1.1以下。
在重尾分布下，所提出的鲁棒格拉姆矩阵估计器比经验格拉姆矩阵 $ \overline{G} $ 更具稳定性，尤其当 $ \kappa > 3 $ 时表现更优。
基于特征分解与鲁棒 $ N(\theta) $ 估计的迭代算法收敛迅速，在计算效率方面优于基于神经网络的朴素方法。
该方法为分析经验格拉姆矩阵 $ \overline{G} $ 提供了数学上严谨的工具，在多项式矩假设下导出了新的泛化界。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。