QUICK REVIEW

[论文解读] Improving Image Captioning with Better Use of Captions

Zhan Shi, Zhou Xu|arXiv (Cornell University)|Jun 21, 2020

Multimodal Machine Learning Applications参考文献 37被引用 27

一句话总结

本文提出了一种新颖的图像字幕生成框架，通过弱监督多实例学习构建字幕引导的视觉关系图（CGVRG），以更好地对齐图像语义与文本字幕。通过引入上下文节点特征增强表征，并采用多任务学习联合预测词语和物体/谓词标签，该模型在MSCOCO数据集上实现了最先进性能，各项指标（包括CIDEr-D和SPICE）均优于先前方法。

ABSTRACT

Image captioning is a multimodal problem that has drawn extensive attention in both the natural language processing and computer vision community. In this paper, we present a novel image captioning architecture to better explore semantics available in captions and leverage that to enhance both image representation and caption generation. Our models first construct caption-guided visual relationship graphs that introduce beneficial inductive bias using weakly supervised multi-instance learning. The representation is then enhanced with neighbouring and contextual nodes with their textual and visual features. During generation, the model further incorporates visual relationships using multi-task learning for jointly predicting word and object/predicate tag sequences. We perform extensive experiments on the MSCOCO dataset, showing that the proposed framework significantly outperforms the baselines, resulting in the state-of-the-art performance under a wide range of evaluation metrics.

研究动机与目标

为解决利用字幕中的语义线索改进图像表征与字幕生成之间的差距。
通过弱监督多实例学习克服谓词与物体区域关联模糊的问题。
通过融合视觉与文本特征的邻近及上下文节点，增强图像表征。
通过多任务学习显式建模物体与谓词约束，以正则化字幕生成过程。
在MSCOCO图像字幕基准上实现最先进性能。

提出的方法

使用弱监督多实例学习构建字幕引导的视觉关系图（CGVRG），从真实字幕中检测谓词-对象对。
通过图卷积网络（GCNs）聚合邻近与上下文节点的特征，增强节点表征。
将节点的视觉与文本特征整合为统一表征，以提升语义理解能力。
实施多任务学习，在字幕生成过程中联合预测词序列与标签序列（物体、谓词、无）。
利用标签预测引导解码器关注相关视觉关系，从而在生成字幕中施加结构约束。
采用交叉熵与强化学习（RLO）策略联合训练模型，实现稳健优化。

实验结果

研究问题

RQ1字幕引导的视觉关系图能否通过更好对齐图像与字幕之间的语义，改善图像表征？
RQ2当真实物体区域模糊时，弱监督多实例学习在检测相关视觉关系方面有何帮助？
RQ3对词序列与标签序列进行联合预测的多任务学习，在多大程度上提升了字幕质量与结构连贯性？
RQ4通过图卷积整合邻近与上下文节点特征，是否能提升字幕生成性能？
RQ5所提出的框架是否能在MSCOCO数据集的多个评估指标上实现最先进结果？

主要发现

所提模型在MSCOCO数据集上实现最先进性能，交叉熵优化下CIDEr-D得分为118.1，SPICE得分为21.2。
消融实验表明，图卷积与多任务学习均显著提升字幕质量，完整模型优于各类消融变体。
人工评估显示，与Up-Down相比，该模型生成的字幕在忠实度（44%的图像）、信息量（60%）和流畅度（18%）方面均显著更优。
模型成功学习到为预测词语分配正确的标签概率，对谓词语义标签（如“flying over”）和物体标签（如“bird”）具有高置信度。
模型能生成训练集中未见的新颖视觉关系组合，如（table, filled with, food），表明其具备更强泛化能力。
该框架在所有指标上均优于强基线模型（如Up-Down、GCN-LSTM与SGAE），在CIDEr-D与SPICE指标上保持一致提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。