QUICK REVIEW

[论文解读] Modeling Context in Referring Expressions

Licheng Yu, Patrick Poirson|arXiv (Cornell University)|Jul 31, 2016

Multimodal Machine Learning Applications参考文献 39被引用 54

一句话总结

本文提出了一种基于视觉对比的上下文建模方法，用于指代表达生成（REG）与理解，通过显式比较图像中与目标对象相似的对象来提升模型性能。通过整合视觉对比特征并联合生成同一类别所有对象的表达，该方法显著降低了歧义，在RefCOCO、RefCOCO+和RefCOCOg数据集上实现了最先进性能，准确率更高且表达重复率更低。

ABSTRACT

Humans refer to objects in their environments all the time, especially in dialogue with other people. We explore generating and comprehending natural language referring expressions for objects in images. In particular, we focus on incorporating better measures of visual context into referring expression models and find that visual comparison to other objects within an image helps improve performance significantly. We also develop methods to tie the language generation process together, so that we generate expressions for all objects of a particular category jointly. Evaluation on three recent datasets - RefCOCO, RefCOCO+, and RefCOCOg, shows the advantages of our methods for both referring expression generation and comprehension.

研究动机与目标

通过建模超越全局图像特征的详细视觉上下文，提升指代表达生成与理解的性能。
通过将目标对象与图像中视觉相似的对象进行比较，降低指代表达中的歧义。
通过联合建模同一类别所有对象的表达，提升语言生成质量，确保表达的多样性与互补性。
通过在三个基准数据集上的全面评估，验证视觉对比与绑定生成的有效性。
解决先前模型因上下文建模不足而生成模糊或冗余表达的局限性。

提出的方法

该模型使用CNN提取目标对象和整个图像的视觉特征，然后计算目标对象与其他同类别对象之间的视觉差异。
视觉对比模块计算出一个'visdif'特征向量，通过将目标对象与场景中相似对象进行比较，捕捉其区分性属性。
语言生成网络使用LSTM，输入包括目标对象特征、完整图像特征以及visdif向量，以生成上下文准确的指代表达。
绑定生成机制确保同一类别下的多个对象表达被同时生成，从而促进多样性并减少冗余。
模型通过端到端反向传播联合训练，同时完成指代表达生成与理解任务。
该方法引入最小互信息（MMI）目标函数，以提升生成质量并减少歧义。

实验结果

研究问题

RQ1在对象之间引入视觉对比如何改善指代表达生成与理解？
RQ2对同一类别多个对象联合生成表达是否能降低歧义并提升性能？
RQ3基于visdif的视觉上下文建模是否在生成无歧义指代表达方面优于全局图像上下文特征？
RQ4BLEU与ROUGE等自动指标与指代表达质量的人工评估之间相关性如何？
RQ5绑定生成在多大程度上减少了同一图像中不同对象之间的表达重复？

主要发现

采用绑定生成的'visdif'模型在RefCOCO测试B集上达到76.31%的人工评估准确率，显著优于基线模型。
'visdif+MMI+tie'模型在RefCOCO测试B集上将重复表达比例降低至4.53%，为所有方法中最低，表明表达多样性得到显著提升。
人工评估证实，包含MMI与绑定生成的模型性能优于自动指标所反映的结果，其中'visdif+MMI+tie'在RefCOCO测试B集上达到76.31%的准确率。
与基线相比，'visdif'模型在RefCOCO数据集上将BLEU-1与ROUGE得分分别提升最高达0.045和0.016。
在RefCOCOg数据集上，'visdif'模型取得BLEU-1得分为0.442、ROUGE得分为0.370，优于基线及MMI基线模型。
视觉对比与绑定生成的结合使表达重复率相比基线方法降低最多达50%，证明了语义多样性的显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。