[论文解读] Gaussian Oracle Inequalities for Structured Selection in Non-Parametric Cox Model
本文针对高维非参数Cox模型中的删失数据,发展了稀疏、结构化变量选择的有限样本推断方法,引入了组惩罚项和新颖的非渐近沙漏边界,将局部渐近正态性(LAN)扩展至 $p \gg n$ 设置。研究证明,在适当的删失条件下,该模型中的惩罚估计量在预测性能上可与线性模型相媲美。
To better understand the interplay of censoring and sparsity we develop finite sample properties of nonparametric Cox proportional hazard's model. Due to high impact of sequencing data, carrying genetic information of each individual, we work with over-parametrized problem and propose general class of group penalties suitable for sparse structured variable selection and estimation. Novel non-asymptotic sandwich bounds for the partial likelihood are developed. We establish how they extend notion of local asymptotic normality (LAN) of Le Cam's. Such non-asymptotic LAN principles are further extended to high dimensional spaces where $p \gg n$. Finite sample prediction properties of penalized estimator in non-parametric Cox proportional hazards model, under suitable censoring conditions, agree with those of penalized estimator in linear models.
研究动机与目标
- 理解删失与稀疏性在高维生存分析中的相互作用。
- 解决基于基因信息的测序数据引发的过度参数化问题。
- 为稀疏、结构化变量选择与估计,开发一类通用的组惩罚方法。
- 在删失条件下,建立惩罚估计量的有限样本预测性质。
- 将局部渐近正态性(LAN)的概念扩展至高维、非渐近设置,其中 $p \gg n$。
提出的方法
- 提出一类专为非参数Cox模型中结构化稀疏性设计的通用组惩罚方法。
- 为部分似然函数开发新颖的非渐近沙漏边界。
- 将局部渐近正态性(LAN)的概念扩展至高维、有限样本情形。
- 分析在一般删失机制下惩罚估计量的行为。
- 建立非参数Cox模型中预测性能与线性模型之间的联系。
- 利用理论工具,推导在 $p \gg n$ 条件下的有限样本性质。
实验结果
研究问题
- RQ1删失如何影响高维非参数Cox模型中的变量选择与估计?
- RQ2非渐近LAN原理能否扩展至 $p \gg n$ 的高维设置?
- RQ3何种组惩罚结构可实现生存分析中有效的稀疏、结构化选择?
- RQ4非参数Cox模型中惩罚估计量的有限样本预测性能,与线性模型中的表现相比如何?
- RQ5在何种删失条件下,可确保过度参数化生存模型中可靠估计与选择?
主要发现
- 推导出部分似然函数的非渐近沙漏边界,使高维生存模型中的有限样本分析成为可能。
- 所提出的组惩罚方法支持结构化稀疏性,在过度参数化的基因数据设置中对变量选择具有有效性。
- 将LAN原理扩展至高维、有限样本情形,为 $p \gg n$ 设置下的推断提供了理论基础。
- 研究显示,非参数Cox模型中惩罚估计量的预测性能在适当删失条件下,与线性模型中的表现一致。
- 理论框架支持在协变量数量超过样本量时,仍能实现可靠估计与选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。