Skip to main content
QUICK REVIEW

[论文解读] Oracle inequalities for the Lasso in the high-dimensional multiplicative Aalen intensity model

Sarah Lemler|arXiv (Cornell University)|Jun 25, 2012
Statistical Methods and Inference参考文献 1被引用 5
一句话总结

本文提出了一种数据驱动的加权Lasso方法,用于在高维乘法Aalen模型中估计条件强度,使用两个词典分别近似基线风险和相对风险。该方法基于经验Kullback散度建立了非渐近Oracle不等式,利用鞅经验Bernstein不等式和修改后的自协融函数。

ABSTRACT

In a general counting process setting, we consider the problem of obtaining a prognostic on the survival time adjusted on covariates in high-dimension. Towards this end, we construct an estimator of the whole conditional intensity. We estimate it by the best Cox proportional hazards model given two dictionaries of functions. The first dictionary is used to construct an approximation of the logarithm of the baseline hazard function and the second to approximate the relative risk. We introduce a new data-driven weighted Lasso procedure to estimate the unknown parameters of the best Cox model approximating the intensity. We provide non-asymptotic oracle inequalities for our procedure in terms of an appropriate empirical Kullback divergence. Our results rely on an empirical Bernstein's inequality for martingales with jumps and properties of modified self-concordant functions.

研究动机与目标

  • 在计数过程框架下,为高维生存数据中的条件强度开发一个稳健的估计器。
  • 解决高维协变量调整生存模型中的变量选择与估计挑战。
  • 构建一种自适应于强度模型潜在稀疏性的数据驱动Lasso程序。
  • 利用经验发散度度量,为所提出的估计器建立非渐近理论保证。
  • 通过引入修改后的自协融函数和鞅集中不等式,扩展生存分析中的现有结果。

提出的方法

  • 该方法通过从两个词典中选择最佳Cox比例风险模型来构造条件强度的估计器:一个用于对数基线风险,另一个用于相对风险。
  • 提出一种新颖的数据驱动加权Lasso程序,用于估计最佳逼近Cox模型的未知参数。
  • 利用专为带跳的鞅设计的经验Bernstein不等式对程序进行分析,确保稳健的集中界。
  • 理论分析依赖于修改后的自协融函数的性质,以控制估计问题的复杂性。
  • 估计误差以经验Kullback散度形式有界,提供非渐近性能保证。
  • 该方法结合函数逼近与高维正则化,在稀疏设定下实现最优估计。

实验结果

研究问题

  • RQ1如何在具有协变量的高维乘法Aalen模型中一致估计条件强度?
  • RQ2在这一非参数生存模型中,基于Lasso的估计器的最优收敛速率是什么?
  • RQ3我们能否在计数过程背景下,为数据驱动的Lasso程序推导出非渐近Oracle不等式?
  • RQ4带跳的鞅集中不等式如何促进生存模型的理论分析?
  • RQ5修改后的自协融函数在控制高维强度模型中的估计误差方面发挥什么作用?

主要发现

  • 所提出的加权Lasso程序在经验Kullback散度下实现了非渐近Oracle不等式,确保了最优估计性能。
  • 该方法提供了理论保证,且无需依赖子高斯或有界误差假设,而是基于鞅集中性。
  • 使用修改后的自协融函数可更紧密地控制高维设定下模型空间的复杂性。
  • 针对跳跃鞅的经验Bernstein不等式在推导估计误差的精确偏离界方面起关键作用。
  • 数据驱动的加权方案增强了自适应性,使该程序在未知稀疏水平下仍能表现良好。
  • 结果为非渐近性,且在整个模型空间上一致成立,因此适用于有限样本情形。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。