QUICK REVIEW

[论文解读] VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

Fartash Faghri, David J. Fleet|arXiv (Cornell University)|Jul 18, 2017

Multimodal Machine Learning Applications参考文献 29被引用 579

一句话总结

VSE++ 引入了一种受硬负样本挖掘启发的最大边缘 hinge 损失（MH），用于视觉-语义嵌入训练，在 MS-COCO 和 Flickr30K 的图像-字幕检索上获得巨大提升，特别是在使用更强的图像编码器和数据增强时。

ABSTRACT

We present a new technique for learning visual-semantic embeddings for cross-modal retrieval. Inspired by hard negative mining, the use of hard negatives in structured prediction, and ranking loss functions, we introduce a simple change to common loss functions used for multi-modal embeddings. That, combined with fine-tuning and use of augmented data, yields significant gains in retrieval performance. We showcase our approach, VSE++, on MS-COCO and Flickr30K datasets, using ablation studies and comparisons with existing methods. On MS-COCO our approach outperforms state-of-the-art methods by 8.8% in caption retrieval and 11.3% in image retrieval (at R@1).

研究动机与目标

推动学习鲁棒的视觉-语义嵌入，以用于跨模态检索（字幕 ↔ 图像）。
研究在联合嵌入损失中硬负样本采样的效果。
通过新的损失（MH）以及数据增强/微调来提升检索性能。
展示使用更强的图像编码器（如 ResNet）和数据集增强所带来的提升。
提供消融研究并与 MS-COCO 和 Flickr30K 上的最先进基线进行对比。

提出的方法

定义一个联合嵌入，将图像和字幕投射到共享空间，并对两者进行 L2 归一化。
用 Max of Hinges (MH) 损失替代标准三元组/超平面 hinge 损失，聚焦于小批量内最困难的负样本：ell(i,c)=max_c' [alpha+s(i,c')-s(i,c)]+max_i' [alpha+s(i',c)-s(i,c)].
在每个小批量内计算负样本（无额外挖矿成本），以强调接近正样本的困难负样本。
可选地对图像编码器进行微调并进行数据增强（RC、10C、rV 等）以提高性能。
尝试 VGG19 和 ResNet 编码器、基于 GRU 的字幕编码器，以及联合维度 D=1024。
使用 R@K 的召回率评估字幕和图像检索，在 MS-COCO 和 Flickr30K 上。

实验结果

研究问题

RQ1是否通过 MH 损失引入硬负样本能在字幕与图像检索的 R@1/5/10 和中位排名方面优于基线 SH 损失？
RQ2数据增强和图像编码器改进（如 ResNet、微调）如何与 MH 损失交互以提升性能？
RQ3由于批内硬负样本，MH 损失对批量大小和标签噪声是否鲁棒？
RQ4MH 损失是否能提升除 VSE 之外的其他嵌入方法，如 order-embeddings？
RQ5训练数据量与增强对 VSE++ 性能的影响？

主要发现

模型	训练集	字幕检索 R@1	字幕检索 R@5	字幕检索 R@10	字幕检索中位秩 r	图像检索 R@1	图像检索 R@5	图像检索 R@10	图像检索中位秩 r
VSE++ (ResNet, FT)	RC+rV	64.6	90.0	95.7	1.0	52.0	84.3	92.0	1.0
VSE++	1C (1 fold)	43.6	74.8	84.6	2.0	33.7	68.8	81.0	3.0

在 MS-COCO 上，采用 ResNet152 并进行微调的 VSE++ 在字幕检索的 R@1 为 64.6%，在图像检索的 R@1 为 52.0%，测试集 1K 图像时（Table 1/1.11）。
VSE++ 持续优于 VSE0 和先前的最先进方法，在 MS-COCO 上对比基线的字幕 R@1 提升 8.8% 绝对值，图像 R@1 提升 11.3% 绝对值。
在小批量内使用更硬的负样本（MH 损失）带来显著收益，超出仅使用更强的图像编码器（如 ResNet）或数据增强（RC/ rV）本身的效果。
改进在两个数据集（MS-COCO 和 Flickr30K）及多种训练变体（1C、RC、rV；FT）中保持有效。
将 SH 换成 MH 时，MH 损失对其他嵌入方法（Order++）也有收益，在 MS-COCO 上取得显著的 R@1 提升。
MH 损失在训练初期有一个热身期，但在若干个 epoch 后超越 SH；提供了课程化策略，但单独的 MH 已表现出强劲效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。