Skip to main content
QUICK REVIEW

[论文解读] DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning

Chi Zhang, Yujun Cai|arXiv (Cornell University)|Mar 15, 2020
Domain Adaptation and Few-Shot Learning参考文献 85被引用 38
一句话总结

本文将少样本图像分类正式化为一个最优匹配问题,使用局部图像区域之间可微的 Earth Mover’s Distance (EMD),引入跨参考加权方案,并提出一个结构化的全连接层用于 k-shot 任务,在标准基准上实现了最先进的结果。

ABSTRACT

In this work, we develop methods for few-shot image classification from a new perspective of optimal matching between image regions. We employ the Earth Mover's Distance (EMD) as a metric to compute a structural distance between dense image representations to determine image relevance. The EMD generates the optimal matching flows between structural elements that have the minimum matching cost, which is used to calculate the image distance for classification. To generate the important weights of elements in the EMD formulation, we design a cross-reference mechanism, which can effectively alleviate the adverse impact caused by the cluttered background and large intra-class appearance variations. To implement k-shot classification, we propose to learn a structured fully connected layer that can directly classify dense image representations with the EMD. Based on the implicit function theorem, the EMD can be inserted as a layer into the network for end-to-end training. Our extensive experiments validate the effectiveness of our algorithm which outperforms state-of-the-art methods by a significant margin on five widely used few-shot classification benchmarks, namely, miniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB), and CIFAR-FewShot (CIFAR-FS). We also demonstrate the effectiveness of our method on the image retrieval task in our experiments.

研究动机与目标

  • 将少样本分类动机为局部图像区域之间的结构化匹配,而非全局嵌入。
  • 开发一个可嵌入神经网络并可端到端训练的可微分 EMD 层。
  • 提出跨参考机制来对局部区域进行加权,减少背景噪声并增强前景相关性。
  • 引入一个结构化的全连接层,以使用基于 EMD 的距离对类原型进行 k-shot 分类。

提出的方法

  • 将图像表示为通过 FCN、网格或随机补丁提取的局部区域嵌入集合。
  • 通过 Earth Mover’s Distance 计算两幅图像之间的距离,成本为 c_ij = 1 - (u_i^T v_j) / (||u_i|| ||v_j||)。
  • 使用跨参考机制生成节点权重 s_i 和 d_j,用于比较两幅图像之间的区域特征。
  • 将 EMD 最优化嵌入为一个可微分层,利用 KKT 条件和隐函数定理实现端到端训练。
  • 对于 k-shot,用一个结构化的全连接层替代标准的 FC,以基于查询特征和类别原型区域之间的 EMD 距离进行分类。
  • 提供结合预训练步骤和 episodic 元训练的训练协议,以及对结构化 FC 层的迭代细化。

实验结果

研究问题

  • RQ1局部图像区域之间的可微分 Earth Mover’s Distance 能否提升少样本分类性能?
  • RQ2用于加权区域贡献的跨参考机制是否能减轻背景干扰和类内变异?
  • RQ3结构化全连接层是否能用基于 EMD 的距离有效执行 k-shot 分类?

主要发现

模型嵌入度量5-way10-way
ProtoNetglobalEuclidean60.37-
MatchingNetglobalcosine63.0847.09
FCglobaldot59.4144.08
FCglobalcosine55.4340.42
KNNlocalcosine62.5247.08
Prediction Fusionlocalcosine62.3847.04
DeepEMD-FCNlocalEMD65.9149.66
  • DeepEMD-FCN 配合 EMD 在五个基准数据集的 1-shot 和 5-shot 任务上超过基线方法。
  • 1-shot 结果显示 DeepEMD-FCN 在 5-way 和 10-way 的表现分别为 65.91 和 49.66,相比 ProtoNet、MatchingNet、以及 FC 变体等基线。
  • 带有跨参考加权的 EMD 在所有 EMD 变体中取得最佳性能。
  • 该方法还提升了图像检索任务的性能,超过分类任务。
  • 该模型支持通过对 LP-based EMD 层进行微分实现端到端训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。