[论文解读] Contrastive Learning for Image Captioning
本文提出了用于图像描述的对比学习(CL),通过一个固定的参考模型将目标模型推向具有区分性但高质量的描述,在 MSCOCO 和 InstaPIC-1.1M 的多项指标上显示出改进。
Image captioning, a popular topic in computer vision, has achieved substantial progress in recent years. However, the distinctiveness of natural descriptions is often overlooked in previous work. It is closely related to the quality of captions, as distinctive captions are more likely to describe images with their unique aspects. In this work, we propose a new learning method, Contrastive Learning (CL), for image captioning. Specifically, via two constraints formulated on top of a reference model, the proposed method can encourage distinctiveness, while maintaining the overall quality of the generated captions. We tested our method on two challenging datasets, where it improves the baseline model by significant margins. We also showed in our studies that the proposed method is generic and can be used for models with various structures.
研究动机与目标
- 强调图像描述中与传统准确性指标不同的重要性与紧迫性。
- 提出一个学习框架,在保持整体描述质量的同时鼓励区分性。
- 展示固定参考模型能为提升描述独特性提供稳定的引导。
- 通过将 CL 应用于不同的描述架构和数据集,展示其普适性。
提出的方法
- 定义一个参数为 theta 的目标模型 p_m,以及一个参数为 phi 的固定参考模型 p_n。
- 生成正样本 (I,c) 和负样本 (I,c_),其中 c 是图像 I 的真实描述,c_/I 是 I 的错配描述。
- 使用对数比 G((c,I);theta,phi)=ln p_m(c|I,theta) - ln p_n(c|I,phi) 和逻辑回归饱和函数 h((c,I);theta,phi)=r_nu(G((c,I);theta,phi))。
- 最大化目标 J(theta)= (1/K)(1/T_m) sum_{k=1}^K L(theta; X, Y_k, phi) 其中 L 是对正负样本的对数似然。
- 通过设置 nu = T_n/T_m(通常 nu=1)并复制 X 以采样多样的 Y,来平衡正负样本。
- 证明 CL 可以叠加在各种基础模型之上(例如 Neuraltalk2、AdaptiveAttention),并且与 MLE 预训练兼容。
实验结果
研究问题
- RQ1引入一个具有对比、正负约束的固定参考模型,是否能在不牺牲整体描述质量的前提下提高描述的区分性?
- RQ2CL 如何影响跨数据集与模型架构的标准描述指标(BLEU、METEOR、ROUGE-L、CIDEr)?
- RQ3CL 是否在不同基础架构和数据规模(MSCOCO、InstaPIC-1.1M)上具有鲁棒性?
主要发现
| Method | B-1 | B-2 | B-3 | B-4 | METEOR | ROUGE_L | CIDEr |
|---|---|---|---|---|---|---|---|
| AdaptiveAttention + CL (Ours) | 0.742 | 0.577 | 0.436 | 0.326 | 0.260 | 0.544 | 1.010 |
- 自我检索研究表明,越高的区分性与更好的描述指标相关。
- 在 MSCOCO 上,AdaptiveAttention + CL 相比基础的 AdaptiveAttention,在 BLEU、METEOR、ROUGE-L、CIDEr 上均有显著提升,取得强大的单模型结果。
- 在 InstaPIC-1.1M 上,AdaptiveAttention + CL 相较基线获得了显著的 CIDEr 提升,表明描述质量提高。
- CL 兼容多种基础模型且可跨数据集泛化,消融显示完全的 CL(正负约束)优于仅使用其中任一约束或 IL/GAN 基线。
- 周期性替换参考模型在获得强目标后收益会递减,这表明在许多情况下单一强参考就足够。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。