QUICK REVIEW

[论文解读] Consistent selection of tuning parameters via variable selection stability

Wei Sun, Junhui Wang|arXiv (Cornell University)|Aug 16, 2012

Statistical Methods and Inference参考文献 32被引用 66

一句话总结

本文提出了一种基于变量选择稳定性的新型惩罚回归模型调参准则，利用Cohen's kappa系数衡量自举样本间的一致性。该方法在固定维数和发散维数设定下均保证渐近选择一致性，优于传统准则如BIC和交叉验证，在恢复真实变量集合方面表现更优。

ABSTRACT

Penalized regression models are popularly used in high-dimensional data analysis to conduct variable selection and model fitting simultaneously. Whereas success has been widely reported in literature, their performances largely depend on the tuning parameters that balance the trade-off between model fitting and model sparsity. Existing tuning criteria mainly follow the route of minimizing the estimated prediction error or maximizing the posterior model probability, such as cross-validation, AIC and BIC. This article introduces a general tuning parameter selection criterion based on a novel concept of variable selection stability. The key idea is to select the tuning parameters so that the resultant penalized regression model is stable in variable selection. The asymptotic selection consistency is established for both fixed and diverging dimensions. The effectiveness of the proposed criterion is also demonstrated in a variety of simulated examples as well as an application to the prostate cancer data.

研究动机与目标

解决高维惩罚回归中调参选择的关键挑战，其中性能取决于模型拟合与稀疏性的平衡。
开发一种直接针对选择稳定性的准则——确保在重复抽样中一致识别出真正有信息的变量。
在固定维数和发散维数两种设定下，为所提方法建立渐近选择一致性。
为现有准则（如BIC和交叉验证）提供一种实用替代方案，后者优化预测误差或模型概率，而非选择稳定性。
通过模拟和前列腺癌数据的实际应用，证明该方法的有效性。

提出的方法

该方法基于数据的多个自举重抽样中变量选择的稳定性来评估调参。
稳定性通过Cohen's kappa系数量化，该系数衡量所选变量集之间的协议程度相对于偶然一致性的程度。
最优调参被选为在自举样本中平均kappa系数最大的那个。
该方法可适用于多种惩罚回归模型（包括lasso、SCAD和自适应lasso），通过与现有优化框架集成实现。
在正则性条件下证明了渐近一致性，表明所选调参可使模型以趋于1的概率恢复真实模型。
该方法对模型误设具有鲁棒性，并在预测变量数量随样本量发散时仍保持高选择准确性。

实验结果

研究问题

RQ1能否通过Cohen's kappa衡量的变量选择稳定性，作为高维回归中调参选择的可靠准则？
RQ2所提出的基于kappa的准则是否在固定维数和发散维数设定下均实现渐近选择一致性？
RQ3与传统方法（如BIC和交叉验证）相比，kappa准则在真实变量恢复方面的表现如何？
RQ4自举重抽样和样本大小对所选调参的稳定性和一致性有何影响？
RQ5当预测变量数量随样本量增长时，该方法在何种条件下仍能保持选择一致性？

主要发现

所提出的基于kappa的调参选择准则在固定维数和发散维数设定下均实现渐近选择一致性。
随着样本量增加，该方法以趋于1的概率持续恢复真正有信息的变量集合。
在模拟中，该方法在识别正确变量集合方面优于BIC和交叉验证，尤其在弱信号的高维场景中表现更优。
在前列腺癌数据上的应用表明，该方法在变量选择稳定性方面优于传统准则，并提升了模型可解释性。
理论分析确认，所选调参位于最优值的收缩邻域内，确保收敛至真实模型。
只要满足不可表示性条件和稀疏性假设，该方法在预测变量数量随样本量发散时仍能保持高性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。