[论文解读] cqrReg: An R Package for Quantile and Composite Quantile Regression and Variable Selection
本论文介绍了 cqrReg,一个 R 包,实现了使用 ADMM、MM 和坐标下降算法的鲁棒、高维分位数回归与复合分位数回归,并结合自适应 Lasso 变量选择。这些方法在大规模或高维设置下优于现有的基于内点法的 quantreg 方法,其中 ADMM 展现出良好的并行化潜力。
The cqrReg package for R is the first to introduce a family of robust, high-dimensional regression models for quantile and composite quantile regression, both with and without an adaptive lasso penalty for variable selection. In this paper, we reformulate these quantile regression problems and present the estimators we implement in cqrReg using alternating direction method of multipliers (ADMM), majorize-minimization (MM), and coordinate descent (CD) algorithms. Our new approaches address the lack of publicly-available methods for (composite) quantile regression, both with and without regularization. We demonstrate the need for a variety of algorithms in later simulation studies. For comparison, we also introduce the widely-used interior point (IP) formulation and test our methods against the advanced IP algorithms in the existing quantreg package. Our simulation studies show that each of our methods, particularly MM and CD, excel in different settings such as with large or high-dimensional data sets, respectively, and outperform the methods currently implemented in quantreg. ADMM offers particular promise for future developments in its amenability to parallelization.
研究动机与目标
- 解决高维设置下(复合)分位数回归正则化方法缺乏公开可用且鲁棒的实现问题。
- 开发针对分位数与复合分位数回归变量选择的高效计算算法。
- 提供一个可扩展的开源 R 包,支持在鲁棒回归模型中进行估计与变量选择。
- 将新型算法(ADMM、MM、CD)与 quantreg 包中的内点法进行性能比较。
- 在多种数据环境下展示多种算法的实用性,包括大规模与高维数据集。
提出的方法
- 将分位数与复合分位数回归问题重新表述为与 ADMM、主要化-最小化(MM)和坐标下降(CD)兼容的优化框架。
- 实现 ADMM 以支持分布式与并行计算,利用其可分解性与收敛性优势。
- 使用 MM 算法通过迭代最小化一个主导非可微分分位数损失的凸代理函数。
- 应用坐标下降法通过依次更新单个参数来优化目标函数,适用于高维稀疏性。
- 将自适应 Lasso 惩罚项整合到回归模型中,以实现有效的变量选择。
- 将所提方法与 quantreg 包中的内点(IP)算法作为基准进行比较。
实验结果
研究问题
- RQ1在有无正则化的情况下,ADMM、MM 和坐标下降法在分位数与复合分位数回归中的表现如何相对于内点法?
- RQ2在高维或大规模数据设置下,哪种算法最高效且最准确?
- RQ3ADMM 是否可有效用于分位数回归的并行化以提升可扩展性?
- RQ4在复合分位数回归中,引入自适应 Lasso 如何改善变量选择性能?
- RQ5与 quantreg 包中的现有方法相比,所提算法在计算与统计性能之间存在哪些权衡?
主要发现
- 在模拟研究中,MM 和坐标下降法在高维与大样本设置下优于内点法。
- 由于其模块化结构,ADMM 展现出未来在分位数回归中实现并行化与分布式计算的强潜力。
- 当应用自适应 Lasso 时,cqrReg 中提出的方法在变量选择性能上优于 quantreg 包的内点法实现。
- 结合自适应 Lasso 的复合分位数回归在高维模型中提升了估计精度与稀疏性。
- 算法选择显著影响性能表现,其中 MM 在中等至高维数据中表现优异,而 CD 在大规模数据集中表现出强鲁棒性。
- cqrReg 包为现有分位数回归工具提供了一种可扩展的开源替代方案,尤其适用于复杂且高维的回归任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。