QUICK REVIEW

[论文解读] Adaptivity for Regularized Kernel Methods by Lepskii's Principle

Nicole Mücke|arXiv (Cornell University)|Jan 1, 2018

Numerical methods in inverse problems参考文献 15被引用 1

一句话总结

本文提出了一种基于Lepskii原理的数据驱动、完全自适应的核岭回归正则化参数选择方法。通过利用有效维数的经验估计来平衡近似误差与样本误差，该方法在未知光滑性与协方差结构下实现了极小极大最优适应性，并在所有更强范数（包括RKHS）中达到最优误差界，当在L²(ν)中进行平衡时亦然。

ABSTRACT

We address the problem of {\it adaptivity} in the framework of reproducing kernel Hilbert space (RKHS) regression. More precisely, we analyze estimators arising from a linear regularization scheme $g_\lam$. In practical applications, an important task is to choose the regularization parameter $\lam$ appropriately, i.e. based only on the given data and independently on unknown structural assumptions on the regression function. An attractive approach avoiding data-splitting is the {\it Lepskii Principle} (LP), also known as the {\it Balancing Principle} is this setting. We show that a modified parameter choice based on (LP) is minimax optimal adaptive, up to $\log\log(n)$. A convenient result is the fact that balancing in $L^2(ν)-$ norm, which is easiest, automatically gives optimal balancing in all stronger norms, interpolating between $L^2(ν)$ and the RKHS. An analogous result is open for other classical approaches to data dependent choices of the regularization parameter, e.g. for Hold-Out.

研究动机与目标

解决在结构性质（如光滑性、内在维数）未知时，核岭回归中选择最优正则化参数的挑战。
开发一种完全基于数据的方法以选择正则化参数，避免数据划分，与交叉验证或留出法不同。
在再生核希尔伯特空间（RKHS）中，实现对未知光滑性与未知协方差结构的极小极大最优自适应。
证明在L²(ν)范数中进行平衡可自动确保在更强范数（包括RKHS）中的最优平衡，这一性质在经典数据依赖方法中无法保证。
在一般源条件和有效维数假设下，为所得估计器的收敛速率提供理论保证。

提出的方法

在具有可测正定半定核K的再生核希尔伯特空间（RKHS）中建立正则化问题。
使用谱正则化方法（如Tikhonov、Landweber）并引入正则化参数λ，其中估计器gλ最小化正则化经验风险。
应用Lepskii原理（平衡原理）通过比较不同λ值下的估计器，利用有效维数N(λ)的经验估计实现λ的自适应选择。
引入有效维数的的经验近似N̂(λ)，并在独立同分布抽样下，建立N(λ)关于N̂(λ)的双边浓度界。
基于近似误差Ã(λ)与样本误差S̃(n,λ)的上界平衡，结合经验有效维数，定义一个基于数据的参数选择ˆλn,γ(z)。
证明所得估计器 fˆλn,γ(z)在一般源条件和有效维数幂律衰减下，于RKHS范数中达到极小极大最优收敛速率，仅相差log log(n)因子。

实验结果

研究问题

RQ1能否为核岭回归构建一种完全基于数据的正则化参数选择方法，使其自适应于未知光滑性与协方差结构？
RQ2通过Lepskii原理在L²(ν)范数中进行平衡，是否能自动实现更强范数（如RKHS范数）中的最优平衡？
RQ3能否从数据中可靠估计有效维数，以实现无需数据划分的数据驱动参数选择？
RQ4在一般源条件和有效维数幂律衰减下，所得估计器的理论收敛速率如何？
RQ5与经典数据依赖方法（如留出法或交叉验证）相比，该方法在自适应性与最优性方面表现如何？

主要发现

基于Lepskii原理的数据驱动参数选择方法在RKHS回归中，实现了对未知光滑性与未知协方差结构的极小极大最优自适应。
该方法仅在L²(ν)范数中进行平衡，即可确保RKHS范数中的最优平衡，这一结果在其他经典数据依赖方法中尚未被证明成立。
估计器在RKHS范数中的收敛速率阶为λs+r_n,(γ,θ)，与极小极大最优速率仅相差log log(n)因子。
通过其经验对应量N̂(λ)，有效维数N(λ)得到紧密控制，并在独立同分布抽样下建立了高概率双边界。
该方法避免了数据划分，与交叉验证或留出法不同，且在无需事先知晓源条件参数（r, b）的情况下实现了最优自适应。
在一般假设下建立了理论保证：有效维数幂律衰减、有界核、次高斯噪声，且显式依赖于置信水平η。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。