[论文解读] Adaptivity for Regularized Kernel Methods by Lepskii's Principle
本文提出了一种基于Lepskii原理的数据驱动、完全自适应的核岭回归正则化参数选择方法。通过利用有效维数的经验估计来平衡近似误差与样本误差,该方法在未知光滑性与协方差结构下实现了极小极大最优适应性,并在所有更强范数(包括RKHS)中达到最优误差界,当在L²(ν)中进行平衡时亦然。
We address the problem of {\it adaptivity} in the framework of reproducing kernel Hilbert space (RKHS) regression. More precisely, we analyze estimators arising from a linear regularization scheme $g_\lam$. In practical applications, an important task is to choose the regularization parameter $\lam$ appropriately, i.e. based only on the given data and independently on unknown structural assumptions on the regression function. An attractive approach avoiding data-splitting is the {\it Lepskii Principle} (LP), also known as the {\it Balancing Principle} is this setting. We show that a modified parameter choice based on (LP) is minimax optimal adaptive, up to $\log\log(n)$. A convenient result is the fact that balancing in $L^2(ν)-$ norm, which is easiest, automatically gives optimal balancing in all stronger norms, interpolating between $L^2(ν)$ and the RKHS. An analogous result is open for other classical approaches to data dependent choices of the regularization parameter, e.g. for Hold-Out.
研究动机与目标
- 解决在结构性质(如光滑性、内在维数)未知时,核岭回归中选择最优正则化参数的挑战。
- 开发一种完全基于数据的方法以选择正则化参数,避免数据划分,与交叉验证或留出法不同。
- 在再生核希尔伯特空间(RKHS)中,实现对未知光滑性与未知协方差结构的极小极大最优自适应。
- 证明在L²(ν)范数中进行平衡可自动确保在更强范数(包括RKHS)中的最优平衡,这一性质在经典数据依赖方法中无法保证。
- 在一般源条件和有效维数假设下,为所得估计器的收敛速率提供理论保证。
提出的方法
- 在具有可测正定半定核K的再生核希尔伯特空间(RKHS)中建立正则化问题。
- 使用谱正则化方法(如Tikhonov、Landweber)并引入正则化参数λ,其中估计器gλ最小化正则化经验风险。
- 应用Lepskii原理(平衡原理)通过比较不同λ值下的估计器,利用有效维数N(λ)的经验估计实现λ的自适应选择。
- 引入有效维数的的经验近似N̂(λ),并在独立同分布抽样下,建立N(λ)关于N̂(λ)的双边浓度界。
- 基于近似误差Ã(λ)与样本误差S̃(n,λ)的上界平衡,结合经验有效维数,定义一个基于数据的参数选择ˆλn,γ(z)。
- 证明所得估计器 fˆλn,γ(z)在一般源条件和有效维数幂律衰减下,于RKHS范数中达到极小极大最优收敛速率,仅相差log log(n)因子。
实验结果
研究问题
- RQ1能否为核岭回归构建一种完全基于数据的正则化参数选择方法,使其自适应于未知光滑性与协方差结构?
- RQ2通过Lepskii原理在L²(ν)范数中进行平衡,是否能自动实现更强范数(如RKHS范数)中的最优平衡?
- RQ3能否从数据中可靠估计有效维数,以实现无需数据划分的数据驱动参数选择?
- RQ4在一般源条件和有效维数幂律衰减下,所得估计器的理论收敛速率如何?
- RQ5与经典数据依赖方法(如留出法或交叉验证)相比,该方法在自适应性与最优性方面表现如何?
主要发现
- 基于Lepskii原理的数据驱动参数选择方法在RKHS回归中,实现了对未知光滑性与未知协方差结构的极小极大最优自适应。
- 该方法仅在L²(ν)范数中进行平衡,即可确保RKHS范数中的最优平衡,这一结果在其他经典数据依赖方法中尚未被证明成立。
- 估计器在RKHS范数中的收敛速率阶为λs+r_n,(γ,θ),与极小极大最优速率仅相差log log(n)因子。
- 通过其经验对应量N̂(λ),有效维数N(λ)得到紧密控制,并在独立同分布抽样下建立了高概率双边界。
- 该方法避免了数据划分,与交叉验证或留出法不同,且在无需事先知晓源条件参数(r, b)的情况下实现了最优自适应。
- 在一般假设下建立了理论保证:有效维数幂律衰减、有界核、次高斯噪声,且显式依赖于置信水平η。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。