Skip to main content
QUICK REVIEW

[论文解读] Regularized Optimal Transport and the Rot Mover's Distance

Arnaud Dessein, Nicolas Papadakis|arXiv (Cornell University)|Oct 20, 2016
Markov Chains and Monte Carlo Methods参考文献 21被引用 24
一句话总结

本文提出了一种用于离散最优传输(OT)问题的平滑凸正则化统一框架,通过Bregman散度将正则化OT重新表述为矩阵逼近问题。提出了旋转搬运者距离(RMD)及高效算法——交替缩放与非负交替缩放,实现了在多种正则化器下的快速、可扩展计算,并在音频场景分类任务中通过实证验证,性能优于基线度量。

ABSTRACT

This paper presents a unified framework for smooth convex regularization of discrete optimal transport problems. In this context, the regularized optimal transport turns out to be equivalent to a matrix nearness problem with respect to Bregman divergences. Our framework thus naturally generalizes a previously proposed regularization based on the Boltzmann-Shannon entropy related to the Kullback-Leibler divergence, and solved with the Sinkhorn-Knopp algorithm. We call the regularized optimal transport distance the rot mover's distance in reference to the classical earth mover's distance. We develop two generic schemes that we respectively call the alternate scaling algorithm and the non-negative alternate scaling algorithm, to compute efficiently the regularized optimal plans depending on whether the domain of the regularizer lies within the non-negative orthant or not. These schemes are based on Dykstra's algorithm with alternate Bregman projections, and further exploit the Newton-Raphson method when applied to separable divergences. We enhance the separable case with a sparse extension to deal with high data dimensions. We also instantiate our proposed framework and discuss the inherent specificities for well-known regularizers and statistical divergences in the machine learning and information geometry communities. Finally, we demonstrate the merits of our methods with experiments using synthetic data to illustrate the effect of different regularizers and penalties on the solutions, as well as real-world data for a pattern recognition application to audio scene classification.

研究动机与目标

  • 通过平滑凸正则化统一并推广现有的正则化最优传输方法。
  • 为在各种散度下计算正则化最优传输方案开发高效算法。
  • 在合成数据和真实世界数据上展示所提框架的有效性,特别是在高维设置下的表现。
  • 提供一种灵活且有理论依据的框架,用于根据应用特定需求选择和调优正则化器。
  • 将理论与算法工具扩展至标准熵正则化之外,包括非负和可分正则化器。

提出的方法

  • 将正则化最优传输表述为相对于Bregman散度的矩阵逼近问题,推广了Kullback-Leibler散度及其他散度。
  • 为定义域位于非负单纯形上的正则化器开发了交替缩放算法,并为更广泛类别的正则化器开发了非负交替缩放算法。
  • 引入可分正则化器的稀疏扩展,以高效处理高维数据。
  • 使用Bregman投影迭代更新对偶变量,确保收敛至正则化最优传输方案。
  • 将框架应用于知名正则化器,如Boltzmann-Shannon熵、逻辑损失和Hellinger散度。
  • 采用参数化方法通过仿射变换在正则化器之间插值,实现灵活调优。

实验结果

研究问题

  • RQ1如何为离散最优传输问题的平滑凸正则化构建统一框架?
  • RQ2在最优传输中使用不同Bregman散度作为正则化器,其算法影响是什么?
  • RQ3在模式识别任务中,所提出的旋转搬运者距离(RMD)与经典度量(如EMD、欧氏距离和KL散度)相比表现如何?
  • RQ4所提算法能否通过稀疏性和可分性高效处理高维数据?
  • RQ5不同正则化器对实际应用中传输方案的结构和鲁棒性有何影响?

主要发现

  • 在音频场景分类任务中,旋转搬运者距离(RMD)在DCASE 2016挑战赛中表现优于欧氏距离、Kullback-Leibler和Hellinger基系统,达到最高准确率。
  • 在高维数据(如维度256)下,正则化器的选择显著影响性能,Boltzmann-Shannon KL(BSKL)和LOG正则化器表现相似,这是因为在低正则化条件下二者等价。
  • 在低维设置下(如维度≤16),Hellinger正则化器(HELL)表现最佳,凸显了根据数据维度和分布范围选择正则化器的重要性。
  • 交替缩放与非负交替缩放算法收敛高效,即使在高维问题中也能实现二次时间复杂度的正则化方案计算。
  • 可分正则化器框架的稀疏扩展使得在高维特征空间中实现可扩展计算,且不损失精度。
  • 该框架超越了熵正则化,实现了统一算法流程中对多样化散度(如逻辑损失、Hellinger散度和α-散度)的支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。