[论文解读] Context-aware Captions from Context-agnostic Supervision
本文提出了一种新颖的推理方法,使上下文无关的图像字幕模型仅通过通用训练数据即可生成具有区分性的、上下文感知的字幕。通过联合推理说话者(字幕生成器)和听者(判别分类器),该方法在无需额外训练的情况下,在解释性字幕和判别性字幕任务中均优于基线方法,在CUB-200-2011和COCO数据集上取得了当前最优结果。
We introduce an inference technique to produce discriminative context-aware image captions (captions that describe differences between images or visual concepts) using only generic context-agnostic training data (captions that describe a concept or an image in isolation). For example, given images and captions of "siamese cat" and "tiger cat", we generate language that describes the "siamese cat" in a way that distinguishes it from "tiger cat". Our key novelty is that we show how to do joint inference over a language model that is context-agnostic and a listener which distinguishes closely-related concepts. We first apply our technique to a justification task, namely to describe why an image contains a particular fine-grained category as opposed to another closely-related category of the CUB-200-2011 dataset. We then study discriminative image captioning to generate language that uniquely refers to one of two semantically-similar images in the COCO dataset. Evaluations with discriminative ground truth for justification and human studies for discriminative image captioning reveal that our approach outperforms baseline generative and speaker-listener approaches for discrimination.
研究动机与目标
- 使图像字幕模型能够仅使用通用的、上下文无关的训练数据,生成具有上下文感知的、具有区分性的字幕。
- 解决为细粒度视觉区分收集人工标注的上下文特定字幕所带来的高成本和可扩展性问题。
- 开发一种统一的推理框架,无需重新训练字幕模型即可联合优化说话者和听者行为。
- 在两个现实世界的视觉任务上评估该方法:解释性任务(解释图像为何属于目标类别而非干扰类别)和判别性图像字幕任务(在语义相似的图像中唯一标识某一图像)。
- 构建一个新的基准数据集CUB-Justify,用于在细粒度鸟类图像上评估解释系统。
提出的方法
- 提出一种内省说话者(IS)模型,通过联合推理预训练的、上下文无关的字幕模型和判别性听者模型,生成上下文感知的字幕。
- 基于听者的对数似然比设计一种重排序机制,评估生成的字幕在多大程度上能将目标图像与干扰图像区分开。
- 采用基于温度控制采样方案(由λ参数化)的束搜索策略,以在字幕生成过程中平衡流畅性与判别性。
- 将说话者模型调整为能够对其自身输出进行内省推理,避免在判别性数据上进行额外训练。
- 在推理过程中复用生成模型的采样分布,无需训练独立的判别模型来评估字幕质量。
- 将该方法应用于两个任务:在CUB-200-2011上的解释性任务和在COCO上的判别性字幕任务,使用人工标注的真实标签进行评估。
实验结果
研究问题
- RQ1仅通过推理时与听者模型的交互,上下文无关的字幕模型是否能在不微调的情况下生成具有判别性的字幕?
- RQ2在生成上下文感知字幕方面,说话者与听者联合推理与采样-重排序基线方法相比表现如何?
- RQ3预训练的字幕模型在仅使用通用监督的情况下,能在多大程度上被适配以生成实用的、具有判别性的描述?
- RQ4所提出的内省说话者框架是否在区分语义相似图像的字幕生成方面优于现有方法?
- RQ5该方法在生成解释性字幕方面的有效性如何,即解释为何某张鸟类图像属于目标物种而非其近缘物种?
主要发现
- 所提出的内省说话者(IS)方法在CUB-Justify验证集上取得了18.4 ± 0.2的CIDEr-D分数,显著优于RS(λ)基线和微调后的听者基线。
- 即使束搜索大小仅为10,IS(λ)模型的性能也优于RS(λ)基线,而后者需使用100次采样才能达到相近性能,表明IS方法具有更高的推理效率。
- 微调后的听者基线(RS(λ)-TL)在λ=0.5时取得16.2 ± 0.3的CIDEr-D分数,低于IS(λ)模型的18.4 ± 0.2,表明联合推理比独立训练听者更有效。
- 在COCO数据集上的人工评估结果表明,IS(λ)模型生成的字幕比基线方法更具判别性和上下文感知性。
- 该方法仅通过推理时的修改,即可将现有上下文无关的字幕模型适配为上下文感知的字幕模型,无需额外训练。
- CUB-Justify数据集包含3161个(图像,目标类别,干扰类别)三元组,每个三元组配有5个解释,为判别性字幕和解释系统评估提供了新基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。