QUICK REVIEW

[论文解读] Squared Earth Mover's Distance-based Loss for Training Deep Neural Networks

Le Hou, Chen-Ping Yu|arXiv (Cornell University)|Nov 17, 2016

Machine Learning and Data Classification参考文献 33被引用 95

一句话总结

该论文提出了一种基于精确平方地球移动距离（EMD²）的新颖训练损失，通过显式建模类别间关系来提升深度神经网络在单标签分类任务中的性能。该方法提出一种自引导方法，从CNN特征中学习基础距离矩阵，无需事先了解类别关系，在年龄估计和图像美学数据集上实现了最先进性能，同时在具有弱类别间结构的数据集中也表现出良好的泛化能力。

ABSTRACT

In the context of single-label classification, despite the huge success of deep learning, the commonly used cross-entropy loss function ignores the intricate inter-class relationships that often exist in real-life tasks such as age classification. In this work, we propose to leverage these relationships between classes by training deep nets with the exact squared Earth Mover's Distance (also known as Wasserstein distance) for single-label classification. The squared EMD loss uses the predicted probabilities of all classes and penalizes the miss-predictions according to a ground distance matrix that quantifies the dissimilarities between classes. We demonstrate that on datasets with strong inter-class relationships such as an ordering between classes, our exact squared EMD losses yield new state-of-the-art results. Furthermore, we propose a method to automatically learn this matrix using the CNN's own features during training. We show that our method can learn a ground distance matrix efficiently with no inter-class relationship priors and yield the same performance gain. Finally, we show that our method can be generalized to applications that lack strong inter-class relationships and still maintain state-of-the-art performance. Therefore, with limited computational overhead, one can always deploy the proposed loss function on any dataset over the conventional cross-entropy.

研究动机与目标

解决交叉熵损失在现实世界分类任务中忽略类别间关系（如排序或相似性）的局限性。
开发一种可微分的、基于精确 EMD² 的损失函数，根据反映类别差异性的基础距离矩阵对错误预测进行惩罚。
实现在训练过程中从CNN特征端到端学习基础距离矩阵，消除对人工设计或外部先验类别关系的依赖。
证明所提方法在具有弱或无内在类别间结构的数据集上具有良好泛化能力，同时保持或提升性能。
仅使用图像数据且不依赖辅助属性，在 Adience、AADB 和 ImageNet 等基准数据集上实现最先进性能。

提出的方法

使用精确平方地球移动距离（EMD²）作为损失函数，衡量将预测类别概率转换为真实标签 one-hot 分布所需的最小代价，类别差异性通过基础距离矩阵编码。
当类别有序时，采用闭式解计算 EMD²，实现通过损失的高效反向传播。
提出一种自引导训练策略，在反向传播过程中利用CNN自身对类别中心的特征表示来学习基础距离矩阵。
引入基于估计距离矩阵计算的 EMD² 正则化项，该正则化项在训练过程中迭代更新，无需额外超参数。
将基础距离矩阵计算为CNN全连接层最后一层提取的类别中心特征之间的成对L2距离。
通过将连续标签离散化为区间，将该方法应用于分类和回归风格的数据集，实现与基于回归基线的比较。

实验结果

研究问题

RQ1基于精确 EMD² 的损失函数是否能通过建模类别间关系来提升单标签分类任务中深度学习的性能？
RQ2是否能无需事先了解类别关系，有效从CNN特征中学习基础距离矩阵？
RQ3自引导的 EMD² 正则化是否能泛化到具有弱或无内在类别间结构的数据集（如 ImageNet）？
RQ4在具有有序或连续标签的数据集中，EMD² 损失与交叉熵和 L2 回归损失相比性能如何？
RQ5所学习的距离矩阵是否能避免在缺乏强类别排序关系的数据集中捕捉虚假关系？

主要发现

在 Adience 年龄估计数据集上，所提 EMD² 损失使用八个 VGG-F 网络的集成模型，实现了 0.6889 的斯皮尔曼等级相关系数（Spearman’s ρ），优于先前最先进方法。
在 AADB 图像美学数据集上，基于 EMD² 的方法仅使用图像数据即实现了 0.6889 的斯皮尔曼等级相关系数，超越了先前最先进模型（该模型使用了11个额外属性标签）。
自引导的 EMD² 正则化方法性能与使用真实标签距离矩阵的 EMD² 损失相当，证明了类别关系端到端学习的有效性。
在 ImageNet ILSVRC 2012 上，该方法性能与交叉熵损失相当，成对距离的标准差（SDD）为 0.00614，表明类别间关系微弱，且未出现性能下降。
在年龄估计和美学数据集上，该方法显著优于交叉熵和 L2 回归基线，斯皮尔曼等级相关系数最高提升达 0.0682。
所学习的基础距离矩阵在有序数据集（如年龄、美学）上有效捕捉了有意义的类别关系，同时在 ImageNet 等类别间排序关系微弱的数据集中避免了虚假结构的形成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。