[论文解读] Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data
本文提出了一种自检索引导的图像字幕生成框架,通过将检索性能作为训练信号,提升了字幕的区分度。通过利用自检索模块对文本到图像的检索进行评估,该框架在有监督和无监督图像上联合训练,使模型生成更具唯一性、多样性和区分度的字幕,在 COCO 和 Flickr30k 数据集上实现了最先进性能,同时提升了召回率和新颖性指标。
The aim of image captioning is to generate captions by machine to describe image contents. Despite many efforts, generating discriminative captions for images remains non-trivial. Most traditional approaches imitate the language structure patterns, thus tend to fall into a stereotype of replicating frequent phrases or sentences and neglect unique aspects of each image. In this work, we propose an image captioning framework with a self-retrieval module as training guidance, which encourages generating discriminative captions. It brings unique advantages: (1) the self-retrieval guidance can act as a metric and an evaluator of caption discriminativeness to assure the quality of generated captions. (2) The correspondence between generated captions and images are naturally incorporated in the generation process without human annotations, and hence our approach could utilize a large amount of unlabeled images to boost captioning performance with no additional laborious annotations. We demonstrate the effectiveness of the proposed retrieval-guided method on COCO and Flickr30k captioning datasets, and show its superior captioning performance with more discriminative captions.
研究动机与目标
- 解决传统图像字幕模型生成通用化、模板化字幕的问题,这些字幕复现了训练数据中的高频短语。
- 在不依赖额外人工标注的情况下,提升生成字幕的区分度。
- 通过利用图像与其生成字幕之间的自然对应关系,有效利用大规模无标签图像。
- 开发一种基于检索性能评估字幕质量的训练信号,从而同时提升生成的保真度与唯一性。
提出的方法
- 该框架由一个字幕生成模块(用于从图像生成字幕)和一个自检索模块(使用生成的字幕作为查询执行文本到图像检索)组成。
- 自检索模块通过检索损失提供可微分的奖励信号,该信号通过 REINFORCE 算法反向传播,以优化字幕生成模型。
- 对于有标签图像,同时使用真实字幕和自检索计算奖励;对于无标签图像,仅使用自检索,从而实现半监督学习。
- 通过基于与真实字幕相似度对图像进行排序,从无标签数据中挖掘难负样本,最优范围 [100, 1000] 被选为训练数据。
- 该方法采用双重目标:通过最大似然估计(MLE)最大化字幕保真度,通过基于检索的强化学习提升区分度。
- 模型通过联合损失端到端训练:使用交叉熵损失进行字幕生成,同时使用负向检索损失作为强化学习信号。
实验结果
研究问题
- RQ1自检索性能能否作为有效的自监督信号,以提升字幕的区分度?
- RQ2如何在不需额外标注的情况下,有效利用无标签图像进行图像字幕生成?
- RQ3基于检索的奖励机制是否能同时提升生成字幕的唯一性与新颖性?
- RQ4在半监督字幕生成设置中,有标签与无标签数据的最优比例是什么?
- RQ5从无标签数据中进行难负样本挖掘,如何影响模型生成区分度字幕的能力?
主要发现
- 所提方法在 COCO 和 Flickr30k 上均达到最先进性能,在 COCO Karpathy 测试集上达到 33.0% 的 recall@1,显著优于基线模型。
- 模型在文本到图像检索任务上的性能大幅提升,表明生成的字幕更具区分度,能更准确地区分其源图像。
- 在 COCO 数据集上,该方法生成了 72.34% 的唯一字幕和 61.52% 的新颖字幕,分别显著优于基线的 61.56% 和 51.38%。
- 最优的训练数据比例为有标签图像与无标签图像之比为 1:1,该比例下性能最高。
- 从最相似的前 1000 张无标签图像中(按排名从 100 到 1000)挖掘难负样本,可获得最佳性能,避免因过度相似的干扰样本导致过拟合。
- 该模型在显著提升区分度的同时保持了高保真度,避免了以往基于 GAN 或多样性优化方法中常见的多样性与性能之间的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。