[论文解读] VSE++: Improving Visual-Semantic Embeddings with Hard Negatives
VSE++ 引入了一种受硬负样本挖掘启发的最大边缘 hinge 损失(MH),用于视觉-语义嵌入训练,在 MS-COCO 和 Flickr30K 的图像-字幕检索上获得巨大提升,特别是在使用更强的图像编码器和数据增强时。
We present a new technique for learning visual-semantic embeddings for cross-modal retrieval. Inspired by hard negative mining, the use of hard negatives in structured prediction, and ranking loss functions, we introduce a simple change to common loss functions used for multi-modal embeddings. That, combined with fine-tuning and use of augmented data, yields significant gains in retrieval performance. We showcase our approach, VSE++, on MS-COCO and Flickr30K datasets, using ablation studies and comparisons with existing methods. On MS-COCO our approach outperforms state-of-the-art methods by 8.8% in caption retrieval and 11.3% in image retrieval (at R@1).
研究动机与目标
- 推动学习鲁棒的视觉-语义嵌入,以用于跨模态检索(字幕 ↔ 图像)。
- 研究在联合嵌入损失中硬负样本采样的效果。
- 通过新的损失(MH)以及数据增强/微调来提升检索性能。
- 展示使用更强的图像编码器(如 ResNet)和数据集增强所带来的提升。
- 提供消融研究并与 MS-COCO 和 Flickr30K 上的最先进基线进行对比。
提出的方法
- 定义一个联合嵌入,将图像和字幕投射到共享空间,并对两者进行 L2 归一化。
- 用 Max of Hinges (MH) 损失替代标准三元组/超平面 hinge 损失,聚焦于小批量内最困难的负样本:ell(i,c)=max_c' [alpha+s(i,c')-s(i,c)]+max_i' [alpha+s(i',c)-s(i,c)].
- 在每个小批量内计算负样本(无额外挖矿成本),以强调接近正样本的困难负样本。
- 可选地对图像编码器进行微调并进行数据增强(RC、10C、rV 等)以提高性能。
- 尝试 VGG19 和 ResNet 编码器、基于 GRU 的字幕编码器,以及联合维度 D=1024。
- 使用 R@K 的召回率评估字幕和图像检索,在 MS-COCO 和 Flickr30K 上。
实验结果
研究问题
- RQ1是否通过 MH 损失引入硬负样本能在字幕与图像检索的 R@1/5/10 和中位排名方面优于基线 SH 损失?
- RQ2数据增强和图像编码器改进(如 ResNet、微调)如何与 MH 损失交互以提升性能?
- RQ3由于批内硬负样本,MH 损失对批量大小和标签噪声是否鲁棒?
- RQ4MH 损失是否能提升除 VSE 之外的其他嵌入方法,如 order-embeddings?
- RQ5训练数据量与增强对 VSE++ 性能的影响?
主要发现
| 模型 | 训练集 | 字幕检索 R@1 | 字幕检索 R@5 | 字幕检索 R@10 | 字幕检索中位秩 r | 图像检索 R@1 | 图像检索 R@5 | 图像检索 R@10 | 图像检索中位秩 r |
|---|---|---|---|---|---|---|---|---|---|
| VSE++ (ResNet, FT) | RC+rV | 64.6 | 90.0 | 95.7 | 1.0 | 52.0 | 84.3 | 92.0 | 1.0 |
| VSE++ | 1C (1 fold) | 43.6 | 74.8 | 84.6 | 2.0 | 33.7 | 68.8 | 81.0 | 3.0 |
- 在 MS-COCO 上,采用 ResNet152 并进行微调的 VSE++ 在字幕检索的 R@1 为 64.6%,在图像检索的 R@1 为 52.0%,测试集 1K 图像时(Table 1/1.11)。
- VSE++ 持续优于 VSE0 和先前的最先进方法,在 MS-COCO 上对比基线的字幕 R@1 提升 8.8% 绝对值,图像 R@1 提升 11.3% 绝对值。
- 在小批量内使用更硬的负样本(MH 损失)带来显著收益,超出仅使用更强的图像编码器(如 ResNet)或数据增强(RC/ rV)本身的效果。
- 改进在两个数据集(MS-COCO 和 Flickr30K)及多种训练变体(1C、RC、rV;FT)中保持有效。
- 将 SH 换成 MH 时,MH 损失对其他嵌入方法(Order++)也有收益,在 MS-COCO 上取得显著的 R@1 提升。
- MH 损失在训练初期有一个热身期,但在若干个 epoch 后超越 SH;提供了课程化策略,但单独的 MH 已表现出强劲效果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。