Skip to main content
QUICK REVIEW

[论文解读] VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

Fartash Faghri, David J. Fleet|arXiv (Cornell University)|Jul 18, 2017
Multimodal Machine Learning Applications参考文献 29被引用 579
一句话总结

VSE++ 引入了一种受硬负样本挖掘启发的最大边缘 hinge 损失(MH),用于视觉-语义嵌入训练,在 MS-COCO 和 Flickr30K 的图像-字幕检索上获得巨大提升,特别是在使用更强的图像编码器和数据增强时。

ABSTRACT

We present a new technique for learning visual-semantic embeddings for cross-modal retrieval. Inspired by hard negative mining, the use of hard negatives in structured prediction, and ranking loss functions, we introduce a simple change to common loss functions used for multi-modal embeddings. That, combined with fine-tuning and use of augmented data, yields significant gains in retrieval performance. We showcase our approach, VSE++, on MS-COCO and Flickr30K datasets, using ablation studies and comparisons with existing methods. On MS-COCO our approach outperforms state-of-the-art methods by 8.8% in caption retrieval and 11.3% in image retrieval (at R@1).

研究动机与目标

  • 推动学习鲁棒的视觉-语义嵌入,以用于跨模态检索(字幕 ↔ 图像)。
  • 研究在联合嵌入损失中硬负样本采样的效果。
  • 通过新的损失(MH)以及数据增强/微调来提升检索性能。
  • 展示使用更强的图像编码器(如 ResNet)和数据集增强所带来的提升。
  • 提供消融研究并与 MS-COCO 和 Flickr30K 上的最先进基线进行对比。

提出的方法

  • 定义一个联合嵌入,将图像和字幕投射到共享空间,并对两者进行 L2 归一化。
  • 用 Max of Hinges (MH) 损失替代标准三元组/超平面 hinge 损失,聚焦于小批量内最困难的负样本:ell(i,c)=max_c' [alpha+s(i,c')-s(i,c)]+max_i' [alpha+s(i',c)-s(i,c)].
  • 在每个小批量内计算负样本(无额外挖矿成本),以强调接近正样本的困难负样本。
  • 可选地对图像编码器进行微调并进行数据增强(RC、10C、rV 等)以提高性能。
  • 尝试 VGG19 和 ResNet 编码器、基于 GRU 的字幕编码器,以及联合维度 D=1024。
  • 使用 R@K 的召回率评估字幕和图像检索,在 MS-COCO 和 Flickr30K 上。

实验结果

研究问题

  • RQ1是否通过 MH 损失引入硬负样本能在字幕与图像检索的 R@1/5/10 和中位排名方面优于基线 SH 损失?
  • RQ2数据增强和图像编码器改进(如 ResNet、微调)如何与 MH 损失交互以提升性能?
  • RQ3由于批内硬负样本,MH 损失对批量大小和标签噪声是否鲁棒?
  • RQ4MH 损失是否能提升除 VSE 之外的其他嵌入方法,如 order-embeddings?
  • RQ5训练数据量与增强对 VSE++ 性能的影响?

主要发现

模型训练集字幕检索 R@1字幕检索 R@5字幕检索 R@10字幕检索中位秩 r图像检索 R@1图像检索 R@5图像检索 R@10图像检索中位秩 r
VSE++ (ResNet, FT)RC+rV64.690.095.71.052.084.392.01.0
VSE++1C (1 fold)43.674.884.62.033.768.881.03.0
  • 在 MS-COCO 上,采用 ResNet152 并进行微调的 VSE++ 在字幕检索的 R@1 为 64.6%,在图像检索的 R@1 为 52.0%,测试集 1K 图像时(Table 1/1.11)。
  • VSE++ 持续优于 VSE0 和先前的最先进方法,在 MS-COCO 上对比基线的字幕 R@1 提升 8.8% 绝对值,图像 R@1 提升 11.3% 绝对值。
  • 在小批量内使用更硬的负样本(MH 损失)带来显著收益,超出仅使用更强的图像编码器(如 ResNet)或数据增强(RC/ rV)本身的效果。
  • 改进在两个数据集(MS-COCO 和 Flickr30K)及多种训练变体(1C、RC、rV;FT)中保持有效。
  • 将 SH 换成 MH 时,MH 损失对其他嵌入方法(Order++)也有收益,在 MS-COCO 上取得显著的 R@1 提升。
  • MH 损失在训练初期有一个热身期,但在若干个 epoch 后超越 SH;提供了课程化策略,但单独的 MH 已表现出强劲效果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。