Skip to main content
QUICK REVIEW

[论文解读] Learning with a Wasserstein Loss

Charlie Frogner, Chiyuan Zhang|arXiv (Cornell University)|Jun 17, 2015
Topological and Geometric Data Analysis参考文献 25被引用 270
一句话总结

本文提出了一种基于Wasserstein的新型损失函数,用于多标签学习,通过在输出空间中利用预定义的基度量来提升预测的鲁棒性。通过采用熵正则化实现高效计算,该方法促使预测结果在语义上更加平滑——在使用Yahoo Flickr数据集的真实图像标注任务中,其性能优于标准损失函数,尤其在标签噪声环境下表现更优。

ABSTRACT

Learning to predict multi-label outputs is challenging, but in many problems there is a natural metric on the outputs that can be used to improve predictions. In this paper we develop a loss function for multi-label learning, based on the Wasserstein distance. The Wasserstein distance provides a natural notion of dissimilarity for probability measures. Although optimizing with respect to the exact Wasserstein distance is costly, recent work has described a regularized approximation that is efficiently computed. We describe an efficient learning algorithm based on this regularization, as well as a novel extension of the Wasserstein distance from probability measures to unnormalized measures. We also describe a statistical learning bound for the loss. The Wasserstein loss can encourage smoothness of the predictions with respect to a chosen metric on the output space. We demonstrate this property on a real-data tag prediction problem, using the Yahoo Flickr Creative Commons dataset, outperforming a baseline that doesn't use the metric.

研究动机与目标

  • 解决多标签学习中的挑战,其中输出类别具有固有的语义关系或定义良好的度量结构。
  • 通过将输出空间相似性的先验知识融入损失函数,提升预测质量。
  • 为Wasserstein损失开发一种高效的优化方法,以克服其原本计算成本过高的问题。
  • 在保持计算效率的同时,将Wasserstein损失扩展至未归一化的测度。
  • 提供一个统计学习界,以支持使用该损失函数的期望风险最小化。

提出的方法

  • 将多标签预测建模为在有限输出空间上学习非负测度的问题。
  • 基于输出空间中给定的基度量,定义预测测度与真实测度之间Wasserstein距离的损失函数。
  • 对最优传输问题应用熵正则化,以实现Wasserstein距离的高效计算。
  • 提出一种新颖的正则化Wasserstein损失扩展方法,适用于未归一化的测度,同时保持计算效率。
  • 在加权目标中结合Wasserstein损失与标准KL散度损失,以平衡语义平滑性与最大似然性。
  • 使用带有正则化Wasserstein损失的期望风险最小化方法,训练深度学习模型。

实验结果

研究问题

  • RQ1Wasserstein距离能否作为监督学习损失被有效用于多标签设定下的结构化输出空间预测,以提升预测性能?
  • RQ2如何在保留其优良性质的同时,降低使用精确Wasserstein距离进行优化的计算成本?
  • RQ3在标签噪声或语义混淆情况下,将基度量融入损失函数在多大程度上能提升泛化能力?
  • RQ4与交叉熵等标准损失函数相比,所提出的损失函数在top-K性能和鲁棒性方面表现如何?
  • RQ5Wasserstein损失能否在不牺牲计算效率的前提下,有意义地扩展至未归一化的测度?

主要发现

  • Wasserstein损失显著提升了对标签噪声的预测鲁棒性,尤其在语义相似的类别之间(如西伯利亚哈士奇与爱斯基摩犬)。
  • 在Yahoo Flickr Creative Commons数据集上,Wasserstein损失在top-K代价方面优于基线的基于散度的损失,尤其当建议标签数量较少时。
  • 当Wasserstein损失的权重高于标准AUC优化设置时,AUC与top-K代价之间的最优权衡得以实现。
  • 所提出方法在减少冗余的Flickr标签数据集上表现更优,证明了其对标签冗余的鲁棒性。
  • 可视化示例表明,基于Wasserstein的模型即使在与真实标签重叠极少的情况下,也能生成语义相关的预测。
  • 统计学习界支持了使用Wasserstein损失的期望风险最小化框架的泛化性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。