Skip to main content
QUICK REVIEW

[论文解读] Partition-Based Functional Ridge Regression for High-Dimensional Data

Shaista Ashraf, Ismail Shah|arXiv (Cornell University)|Mar 11, 2026
Statistical Methods and Inference被引用 0
一句话总结

本论文提出基于分区的函数岭回归框架,将系数函数分解为相关部分与干扰部分,对不同区块应用差异惩罚,以提高高维函数回归的稳定性与可解释性。给出FRE、FRFM、FRSM估计量及其理论保证,并通过仿真与加拿大天气数据等实例展示性能。

ABSTRACT

This paper proposes a partition-based functional ridge regression framework to address multicollinearity, overfitting, and interpretability in high-dimensional functional linear models. The coefficient function vector \( \boldsymbolβ(s) \) is decomposed into two components, \( \boldsymbolβ_1(s) \) and \( \boldsymbolβ_2(s) \), representing dominant and weaker functional effects. This partition enables differential ridge penalization across functional blocks, so that important signals are preserved while less informative components are more strongly shrunk. The resulting approach improves numerical stability and enhances interpretability without relying on explicit variable selection. We develop three estimators: the Functional Ridge Estimator (FRE), the Functional Ridge Full Model (FRFM), and the Functional Ridge Sub-Model (FRSM). Under standard regularity conditions, we establish consistency and asymptotic normality for all estimators. Simulation results reveal a clear bias--variance trade-off where FRSM performs best in small samples through strong variance reduction, whereas FRFM achieves superior accuracy in moderate to large samples by retaining informative functional structure through adaptive penalization. An empirical application to Canadian weather data further demonstrates improved predictive performance, reduced variance inflation, and clearer identification of influential functional effects. Overall, partition-based ridge regularization provides a practical and theoretically grounded method for high-dimensional functional regression.

研究动机与目标

  • 在高维函数线性模型中提高多重共线性、过拟合与可解释性。
  • 开发一个分区岭框架,对主导与较弱的函数效应分别处理。
  • 提供三种估计量(FRE、FRFM、FRSM),并给出一致性与渐近正态性结论。
  • 就计算、调参与在样本与基底维度共同增长的情况下的推断提供实用指南。

提出的方法

  • 用样条基实现系数函数的有限维设计。
  • 将系数向量分区为相关区块与干扰区块,以实现差异化岭惩罚。
  • 定义三类估计量:FRE仅用单一岭惩罚,FRFM具有分区对角惩罚且lambda2>=lambda1,FRSM仅激活相关区块。
  • 在样本量、观测点数和基维度共同增长的情形下,证明渐进一致性与正态性。
  • 使用广义交叉验证(GCV)选择平滑参数,并提供一个统一框架,通过beta_j(s)=psi(s)^T b_j将其映射到函数对象。

实验结果

研究问题

  • RQ1分区岭回归如何在高维函数线性模型中提升稳定性与可解释性?
  • RQ2在样本量和基维度增长的情形下,FRE、FRFM、FRSM的理论属性(一致性与渐近正态性)是什么?
  • RQ3差异惩罚对偏差-方差权衡及在仿真与真实数据中的预测性能有何影响?
  • RQ4是否可通过样条表示与数据驱动的调参来实现该框架的实际应用?
  • RQ5对系数函数线性泛函的推断,分区化有什么影响?

主要发现

  • 将系数向量分区为相关与干扰分量,可实现差异化惩罚,从而在不进行显式变量选择的情况下提高数值稳定性与可解释性。
  • 在样本量较小时,FRSM因强烈的方差约降表现最佳;在中等至较大样本中,FRFM通过自适应惩罚保留有信息的结构,达到更高的准确性。
  • 在所述正则性条件下,三种估计量均成立;FRFM在相关部分仍维持最优的L2收敛速率,并且对干扰部分的收缩更为积极。
  • 理论结果包括对估计系数函数线性泛函的中心极限定理,以及可一致估计的渐近方差。
  • 对加拿大天气数据的实证应用显示预测性能提升,且对影响函数效应的识别更清晰。
  • 仿真实验突出分区方法在偏差-方差权衡上的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。