[论文解读] Regularization via Mass Transportation
本文引入以经验分布为中心的Wasserstein模糊集合的分布鲁棒学习,推导出可处理的凸重构,产生新的正则化效应和泛化保证,可扩展到核方法和神经网络。
The goal of regression and classification methods in supervised learning is to minimize the empirical risk, that is, the expectation of some loss function quantifying the prediction error under the empirical distribution. When facing scarce training data, overfitting is typically mitigated by adding regularization terms to the objective that penalize hypothesis complexity. In this paper we introduce new regularization techniques using ideas from distributionally robust optimization, and we give new probabilistic interpretations to existing techniques. Specifically, we propose to minimize the worst-case expected loss, where the worst case is taken over the ball of all (continuous or discrete) distributions that have a bounded transportation distance from the (discrete) empirical distribution. By choosing the radius of this ball judiciously, we can guarantee that the worst-case expected loss provides an upper confidence bound on the loss on test data, thus offering new generalization bounds. We prove that the resulting regularized learning problems are tractable and can be tractably kernelized for many popular loss functions. We validate our theoretical out-of-sample guarantees through simulated and empirical experiments.
研究动机与目标
- 将正则化动机化为分布不确定性下的最坏情形风险。
- 引入围绕经验分布的Wasserstein球不确定集来对冲数据扰动。
- 在此框架下为线性、核化和神经网络模型开发可处理的凸重构。
- 通过质量运输提供对经典正则化的概率解释,并建立泛化保证。
提出的方法
- 将Wasserstein球定义在经验分布周围以捕捉分布不确定性。
- 将分布鲁棒学习问题表述为对回归/分类损失的极小极大目标。
- 证明线性假设在分段仿射损失或Lipschitz损失下的可处理有限凸重构。
- 展示可核化提升的表述,能够支持非线性假设空间。
- 将该方法扩展到带有凸正则化代理和随机近端优化的神经网络。
实验结果
研究问题
- RQ1在Wasserstein球上的最坏情况期望损失是否能提供有效的样本外性能保证?
- RQ2在何种条件下分布鲁棒目标对常见损失函数存在可处理的凸重构?
- RQ3如何将该框架扩展到非线性模型,如核方法和神经网络?
- RQ4从基于Wasserstein的鲁棒性中能出现对经典正则化的哪些概率解释?
- RQ5不依赖假设空间复杂度时,所提出的模型是否能提供有意义的泛化界?
主要发现
- 在最坏情况期望损失上,Wasserstein球提供了在最小假设条件下测试损失的上界置信区间。
- 对于常见损失(Huber、epsilon-insensitive、pinball、hinge、logistic)和线性假设,鲁棒问题简化为可处理的凸规划或可核化的表述。
- 该方法给出新的泛化界,在有界假设空间和集中化结果下可以与维度无关。
- 经典模型中的正则化项在Wasserstein框架下表现为运输成本的极限,提供概率解释。
- Wasserstein模糊性下的鲁棒性与对数据扰动的鲁棒性一致,当输出空间中的运输成本变大时,可以作为经典正则化的特例。
- 该框架支持构造性地计算最坏情况分布以进行压力测试和校准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。