Skip to main content
QUICK REVIEW

[论文解读] Distributionally Robust Optimization and Generalization in Kernel Methods

Matthew Staib, Stefanie Jegelka|arXiv (Cornell University)|May 26, 2019
Probabilistic and Robust Engineering Design被引用 24
一句话总结

本文提出基于最大均值差异(MMD)不确定集的分布鲁棒优化(DRO),表明其近似等价于对损失函数的希尔伯特范数进行正则化。本文为高斯核岭回归提供了新的泛化性证明,并推导出一种计算上可行的近似方法,该方法推广了基于方差的正则化方法。

ABSTRACT

Distributionally robust optimization (DRO) has attracted attention in machine learning due to its connections to regularization, generalization, and robustness. Existing work has considered uncertainty sets based on phi-divergences and Wasserstein distances, each of which have drawbacks. In this paper, we study DRO with uncertainty sets measured via maximum mean discrepancy (MMD). We show that MMD DRO is roughly equivalent to regularization by the Hilbert norm and, as a byproduct, reveal deep connections to classic results in statistical learning. In particular, we obtain an alternative proof of a generalization bound for Gaussian kernel ridge regression via a DRO lense. The proof also suggests a new regularizer. Our results apply beyond kernel methods: we derive a generically applicable approximation of MMD DRO, and show that it generalizes recent work on variance-based regularization.

研究动机与目标

  • 为解决基于φ-散度和Wasserstein距离的现有DRO不确定集的局限性,这些方法要么排除真实数据分布,要么需要强假设。
  • 开发一种基于最大均值差异(MMD)的新DRO框架,该框架在合理半径假设下包含真实数据分布。
  • 建立MMD DRO与损失函数在再生核希尔伯特空间(RKHS)中希尔伯特范数正则化之间的理论联系。
  • 推导出MMD DRO的计算高效近似,适用于核方法之外的场景。
  • 基于泛化性分析,为高斯核岭回归提出一种新型正则化器。

提出的方法

  • 将MMD DRO形式化为一种分布鲁棒优化问题,其不确定集通过经验分布与MMD距离定义。
  • 证明MMD DRO近似等价于在再生核希尔伯特空间中对损失函数的希尔伯特范数 ∥ℓ_f∥_ℋ 进行惩罚。
  • 在支持集约束下推导出DRO目标的闭式近似,得到一个涉及核矩阵和损失向量的非凸正则化器。
  • 证明当带宽趋近于零或核为单位矩阵时,该正则化器退化为按√n缩放的方差正则化。
  • 将近似推广至任意核,证明在特定核结构(如 K = aI + b11ᵀ)下,其与方差正则化等价。
  • 提出一种新的核岭回归正则化器:使用 ∥f²∥_{σ/√2} 代替 ∥f∥²_σ,该正则化器源于希尔伯特范数分析。

实验结果

研究问题

  • RQ1基于MMD的DRO在分布覆盖性和计算可及性方面,与基于φ-散度和Wasserstein的DRO相比如何?
  • RQ2MMD DRO与损失函数在RKHS中的正则化之间存在何种理论关系?
  • RQ3MMD DRO能否为核岭回归提供紧致的泛化界?若能,其与标准界相比如何?
  • RQ4是否存在一种计算高效的MMD DRO近似,可推广现有基于方差的正则化方法?
  • RQ5基于MMD DRO推导出的新正则化器在实践中是否能提升泛化性能?

主要发现

  • MMD DRO近似等价于对损失函数的希尔伯特范数 ∥ℓ_f∥_ℋ 进行正则化,为泛化性提供了新的理论视角。
  • 对于高斯核岭回归,通过MMD DRO推导出的泛化界与标准界仅相差一个微小常数因子。
  • 分析揭示了一种新的高斯核岭回归正则化器:惩罚 ∥f²∥_{σ/√2} 而非 ∥f∥²_σ,该正则化器对超参数调优更不敏感。
  • MMD DRO近似产生的正则化器推广了基于方差的正则化,当核为 K = aI + b11ᵀ 形式时,二者等价。
  • 实验表明,所提出的正则化器在简单和困难场景下均优于标准Tikhonov正则化,且当λ非最优时性能下降更缓慢。
  • MMD DRO框架避免了φ-散度集的支撑集限制和Wasserstein基DRO的强假设,提供了一种更具鲁棒性和泛化能力的替代方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。