[论文解读] SPARC: Optimal Estimation and Asymptotic Inference under Semiparametric Sparsity
本文提出了SPARC,一种基于似然比的推断框架,用于高维半参数广义线性模型,可在无需估计未知基测度的情况下实现最优估计与渐近推断。该方法利用一种新颖的定向似然构造正则化后的置信区域与假设检验,能够处理非凸惩罚和模型误设问题,其关键理论贡献为新的U-统计量集中不等式。
We propose a likelihood ratio based inferential framework for high dimensional semiparametric generalized linear models. This framework addresses a variety of challenging problems in high dimensional data analysis, including incomplete data, selection bias, and heterogeneous multitask learning. Our work has three main contributions. (i) We develop a regularized statistical chromatography approach to infer the parameter of interest under the proposed semiparametric generalized linear model without the need of estimating the unknown base measure function. (ii) We propose a new framework to construct post-regularization confidence regions and tests for the low dimensional components of high dimensional parameters. Unlike existing post-regularization inferential methods, our approach is based on a novel directional likelihood. In particular, the framework naturally handles generic regularized estimators with nonconvex penalty functions and it can be used to infer least false parameters under misspecified models. (iii) We develop new concentration inequalities and normal approximation results for U-statistics with unbounded kernels, which are of independent interest. We demonstrate the consequences of the general theory by using an example of missing data problem. Extensive simulation studies and real data analysis are provided to illustrate our proposed approach.
研究动机与目标
- 为解决高维数据分析中的挑战,包括不完全数据、选择偏差以及异质多任务学习问题,基于半参数广义线性模型。
- 开发一种正则化统计色谱方法,可在无需估计未知基测度函数的情况下推断感兴趣参数。
- 为高维参数中的低维分量构建有效的正则化后置信区域与假设检验。
- 将推断工具扩展至具有非凸惩罚的通用正则化估计器,并适用于模型误设下存在最小虚假参数的情形。
- 推导出具有无界核的U-统计量的新集中不等式与正态近似结果,独立于主要推断框架。
提出的方法
- 提出一种正则化统计色谱方法,通过利用半参数模型的结构来估计感兴趣参数,而无需直接估计基测度。
- 引入一种新颖的定向似然函数,用于在正则化后构造置信区域并进行推断,聚焦于低维分量。
- 采用基于定向似然的似然比检验统计量,实现对非凸惩罚函数具有鲁棒性的推断。
- 应用具有无界核的U-统计量的新集中不等式,以建立高维设定下的渐近正态性并控制估计误差。
- 在弱矩条件下方推导出U-统计量的正态近似结果,将经典渐近理论扩展至无界核情形。
- 通过模拟与真实数据分析,将该框架应用于缺失数据问题,展示了其实际效用。
实验结果
研究问题
- RQ1在无需估计未知基测度函数的前提下,如何对高维半参数模型中低维分量实现有效的正则化后推断?
- RQ2是否可以构建一种基于似然的推断框架,使其在非凸惩罚和模型误设下依然有效?
- RQ3为确保具有无界核的U-统计量在高维设定下渐近正态性,需要哪些新的集中不等式?
- RQ4与现有正则化后方法相比,所提出的定向似然方法在覆盖精度与鲁棒性方面表现如何?
- RQ5该框架在现实世界问题(如缺失数据与异质多任务学习)中可如何应用?
主要发现
- 所提出的SPARC框架可在无需估计未知基测度函数的前提下,实现高维半参数广义线性模型中的最优估计与渐近推断。
- 定向似然方法可为低维分量提供有效的正则化后置信区域与假设检验,即使在使用非凸惩罚时亦成立。
- 该框架对模型误设具有鲁棒性,可在该类条件下推断最小虚假参数。
- 建立了具有无界核的U-统计量的新集中不等式,为估计量的渐近行为提供了理论支持。
- 在弱矩条件下推导出具有无界核的U-统计量的正态近似结果,扩展了经典渐近理论。
- 模拟研究与真实数据分析表明,SPARC在处理缺失数据与复杂高维结构方面具有实际有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。