QUICK REVIEW

[论文解读] Don't Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-Visual Tasks

Xiao Lin, Devi Parikh|arXiv (Cornell University)|Feb 21, 2015

Multimodal Machine Learning Applications参考文献 39被引用 26

一句话总结

本文提出通过场景想象来利用视觉常识——从图像中提取的语义知识——以提升非视觉自然语言处理任务（如完形填空（FITB）和视觉改写（VP））的性能。通过从文本生成抽象的剪贴画风格场景，并联合推理文本与想象出的视觉特征，该模型在FITB任务上达到95.55%的准确率，在VP任务上达到95.08%的准确率，显著优于仅使用文本的基线模型，且在VP任务上超越人类平均水平。

ABSTRACT

Artificial agents today can answer factual questions. But they fall short on questions that require common sense reasoning. Perhaps this is because most existing common sense databases rely on text to learn and represent knowledge. But much of common sense knowledge is unwritten - partly because it tends not to be interesting enough to talk about, and partly because some common sense is unnatural to articulate in text. While unwritten, it is not unseen. In this paper we leverage semantic common sense knowledge learned from images - i.e. visual common sense - in two textual tasks: fill-in-the-blank and visual paraphrasing. We propose to "imagine" the scene behind the text, and leverage visual cues from the "imagined" scenes in addition to textual cues while answering these questions. We imagine the scenes as a visual abstraction. Our approach outperforms a strong text-only baseline on these tasks. Our proposed tasks can serve as benchmarks to quantitatively evaluate progress in solving tasks that go "beyond recognition". Our code and datasets are publicly available.

研究动机与目标

为解决基于文本的常识知识库在捕捉未写明的隐含视觉常识方面的局限性。
探究是否可通过从图像中学习的视觉常识来提升纯粹文本推理任务的性能。
提出两个新基准：完形填空（FITB）和视觉改写（VP），这些任务需要想象力和视觉常识。
证明生成并推理想象中的视觉场景可使推理性能超越仅基于文本的模型。

提出的方法

在FITB任务中，为每个候选选项生成抽象的剪贴画风格场景，利用文本引导场景生成。
使用联合文本与视觉模型，对文本输入和想象出的视觉场景进行联合推理，以选择最合理的选项。
在视觉改写任务中，为两个描述分别生成场景，并分类判断它们是否描绘了同一基础场景。
通过三种视觉特征类型引入视觉常识：物体存在性、属性和空间配置。
训练一个联合推理模型，使用类似条件随机场的打分函数，融合文本与视觉特征。
使用场景生成模型，推断出文本中未明确提及但有助于提升场景合理性的额外物体。

实验结果

研究问题

RQ1能否通过从图像中提取的视觉常识来提升纯粹文本推理任务的性能？
RQ2在完形填空和视觉改写等任务中，想象视觉场景在多大程度上能增强推理能力？
RQ3不同视觉特征（存在性、属性、空间配置）对性能提升的贡献如何？
RQ4即使在没有显式视觉输入的任务中，视觉增强模型是否仍能超越仅基于文本的模型？
RQ5在人类共识度更高的问题上，视觉常识带来的性能增益是否更大，表明其在复杂推理中的作用？

主要发现

所提方法在FITB任务上达到95.55%的准确率，比仅使用文本的基线模型高出3.5个百分点。
在视觉改写任务中，模型准确率达到95.08%，超过人类平均值94.78%，并优于仅使用文本的基线模型。
所有类别中均因引入视觉特征而提升性能，其中物体存在性特征贡献最大（提升0.93%）。
空间配置特征在VP任务中贡献0.60%的性能提升，表明关系性视觉知识对语义相似性任务具有实际帮助。
在高共识度问题上，性能增益更为显著，从基线的3%提升至6%，表明视觉想象有助于复杂推理。
仅包含提及物体的朴素场景生成器达到95.01%的准确率，表明对推断出的视觉场景进行推理可带来可测量的性能增益，超越显式提及的物体。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。