[论文解读] In Defense of Uniform Convergence: Generalization via derandomization with an application to interpolating predictors
本文通过引入一种去随机化框架,构建从插值模型中得到的代理预测器,捍卫了在过参数化学习中使用统一收敛性作为泛化工具的有效性。研究表明,即使原始预测器缺乏紧致的统一界,其条件期望(一种去随机化版本)也属于一个结构型Glivenko–Cantelli类,从而能够获得统一的泛化界,并解释了如最小范数线性解等插值估计器为何具有低风险。
We propose to study the generalization error of a learned predictor $\\hat h$ in terms of that of a surrogate (potentially randomized) predictor that is coupled to $\\hat h$ and designed to trade empirical risk for control of generalization error. In the case where $\\hat h$ interpolates the data, it is interesting to consider theoretical surrogate classifiers that are partially derandomized or rerandomized, e.g., fit to the training data but with modified label noise. We also show that replacing $\\hat h$ by its conditional distribution with respect to an arbitrary $\\sigma$-field is a convenient way to derandomize. We study two examples, inspired by the work of Nagarajan and Kolter (2019) and Bartlett et al. (2019), where the learned classifier $\\hat h$ interpolates the training data with high probability, has small risk, and, yet, does not belong to a nonrandom class with a tight uniform bound on two-sided generalization error. At the same time, we bound the risk of $\\hat h$ in terms of surrogates constructed by conditioning and denoising, respectively, and shown to belong to nonrandom classes with uniformly small generalization error.
研究动机与目标
- 为了解决过参数化模型在插值训练数据且在标准统一收敛界失效的情况下仍表现出低风险的泛化难题。
- 证明通过条件化或去噪将原始预测器转换为代理预测器后,统一收敛性仍可有效,且该代理预测器属于具有紧致统一泛化误差的类。
- 为复杂度递增的学习问题序列形式化结构型Glivenko–Cantelli类的概念,将经典统一收敛性推广至过参数化设置。
- 通过在与Bartlett等人(2019)相同的良性条件下证明结构型Glivenko–Cantelli性质,弥补了先前工作的技术漏洞,恢复了其风险界的有效性。
- 提供一个理论框架,使得即使原始预测器不满足统一界,其插值预测器的风险也可通过其去随机化代理预测器进行有界控制。
提出的方法
- 提出一种去随机化策略,通过用给定任意σ-代数下的条件期望替换学习到的插值预测器,从而获得一个非随机的代理预测器。
- 引入结构型Glivenko–Cantelli(GC)类的概念,用于复杂度递增的学习问题序列,将经典统一收敛性推广至过参数化设置。
- 将代理方法应用于过参数化线性回归中的最小范数插值解,其中原始预测器不满足统一界,但去噪后的代理预测器(去除标签噪声)满足结构型GC性质。
- 利用样本协方差矩阵的集中不等式(Koltchinskii & Lounici, 2017),证明代理预测器的泛化误差是统一有界的。
- 将泛化误差分解为三个部分:(1) 代理预测器在干净数据上的风险,(2) 代理与原始预测器在干净数据上的差异,以及(3) 原始与代理预测器在噪声数据上的差异。
- 通过分别使用高概率集中结果和协方差矩阵的迹范数,对每一部分进行有界控制,最终导出期望风险界为 O(σ²√(r₀(Σₙ)/n)) 的形式。
实验结果
研究问题
- RQ1在违反经典统一界的情况下,统一收敛性是否仍能解释插值模型的泛化?
- RQ2在何种条件下,插值模型的去随机化代理预测器属于具有统一小泛化误差的类?
- RQ3在良性协方差条件下,能否为从最小范数插值解中导出的代理预测器建立结构型Glivenko–Cantelli性质?
- RQ4插值预测器的风险与其去随机化代理预测器的风险之间有何关系?该关系能否导出紧致的期望风险界?
- RQ5去除标签噪声和条件期望在使原本不满足统一界的预测器实现统一收敛性中起到何种作用?
主要发现
- 在Bartlett等人(2019)的良性条件下,通过从最小范数插值解中去除标签噪声得到的代理预测器属于结构型Glivenko–Cantelli类,从而恢复了其统一收敛性论证的有效性。
- 原始插值预测器的期望泛化误差被有界为 O(σ²√(r₀(Σₙ)/n)),其中 r₀(Σₙ) 是特征协方差矩阵的有效秩。
- 原始预测器 ˆβ 的风险在期望上被有界为三部分之和:E[LS(ˆβ₀) − LS(ˆβ)] = σ²,E[LD(ˆβ) − LD(ˆβ₀)] = O(σ² log(1/δ)(k*/n + n/Rk*(Σₙ))),以及 E[LD(ˆβ₀) − LS(ˆβ₀)] = O(σ²√(r₀(Σₙ)/n))。
- 去随机化代理预测器(定义为 ˆβ 给定数据的条件期望)具有统一小的泛化误差,可通过统一收敛性实现紧致的风险界。
- 本文通过在与Bartlett等人(2019)相同的良性条件下证明结构型GC性质,纠正了先前工作中的技术错误,确保了风险界的有效性。
- 该框架成功解释了双下降范式中的泛化现象,表明尽管原始模型可能不满足统一界,但其去随机化版本满足,从而为理论理解提供了路径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。