[论文解读] Data-driven Optimal Transport Cost Selection for Distributionally Robust Optimizatio
本文提出一种数据驱动方法,用于在分布鲁棒优化(DRO)中学习最优传输成本函数,通过自适应地定义经验分布周围的不确定性邻域,改进机器学习估计器。该方法推广了自适应正则化,并在多个标准模型上实现了经验性能的提升。
Recently, (Blanchet, Kang, and Murhy 2016, and Blanchet, and Kang 2017) showed that several machine learning algorithms, such as square-root Lasso, Support Vector Machines, and regularized logistic regression, among many others, can be represented exactly as distributionally robust optimization (DRO) problems. The distributional uncertainty is defined as a neighborhood centered at the empirical distribution. We propose a methodology which learns such neighborhood in a natural data-driven way. We show rigorously that our framework encompasses adaptive regularization as a particular case. Moreover, we demonstrate empirically that our proposed methodology is able to improve upon a wide range of popular machine learning estimators.
研究动机与目标
- 开发一种用于在分布鲁棒优化(DRO)中选择最优传输成本的数据驱动框架。
- 改进如平方根Lasso、支持向量机(SVMs)和正则化逻辑回归等机器学习模型的鲁棒性和性能。
- 正式建立所提出方法与自适应正则化作为特例之间的联系。
- 通过实证验证,该方法在多种学习任务中优于标准估计器。
提出的方法
- 利用数据学习最优传输中的成本函数,以定义经验分布周围的歧义集。
- 采用数据驱动的优化过程校准传输成本,确保其反映底层数据结构。
- 将学习到的成本整合到DRO公式中,最小化歧义集上最坏情况下的期望。
- 采用DRO的对偶公式,推导出可高效求解的可处理优化问题。
- 证明当成本函数被适当地选择时,所得估计器退化为自适应正则化。
- 将该框架应用于标准机器学习模型,实现鲁棒且自适应的学习。
实验结果
研究问题
- RQ1基于数据驱动的方法选择最优传输成本,能否提升机器学习中分布鲁棒优化的性能?
- RQ2所提出方法与现有自适应正则化技术有何关联?
- RQ3所学习的成本函数在多大程度上能增强标准估计器(如平方根Lasso和SVMs)的性能?
- RQ4该方法在提升经验性能的同时,是否仍保持理论保证?
主要发现
- 所提出方法将自适应正则化作为特例进行推广,为鲁棒学习提供统一框架。
- 数据驱动的成本学习在广泛范围的机器学习估计器中带来了性能提升。
- 该框架通过将成本选择嵌入DRO公式,保持了理论严谨性。
- 实证结果表明,该方法在标准估计器上实现了持续改进,展现出鲁棒性和自适应性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。