Skip to main content
QUICK REVIEW

[论文解读] Visual Dialogue without Vision or Dialogue

Daniela Massiceti, Puneet K. Dokania|arXiv (Cornell University)|Dec 16, 2018
Multimodal Machine Learning Applications参考文献 18被引用 22
一句话总结

该论文提出了一种基于典型相关分析(CCA)的简单方法,用于视觉对话任务,在不使用视觉输入或对话历史的情况下,实现了接近最先进(SOTA)的平均排名(MR)性能。尽管仅使用现成的特征且计算量极小,该模型仍优于复杂的深度学习架构,暴露出当前评估指标中潜在的偏差以及数据集设计中的问题。

ABSTRACT

We characterise some of the quirks and shortcomings in the exploration of Visual Dialogue - a sequential question-answering task where the questions and corresponding answers are related through given visual stimuli. To do so, we develop an embarrassingly simple method based on Canonical Correlation Analysis (CCA) that, on the standard dataset, achieves near state-of-the-art performance on mean rank (MR). In direct contrast to current complex and over-parametrised architectures that are both compute and time intensive, our method ignores the visual stimuli, ignores the sequencing of dialogue, does not need gradients, uses off-the-shelf feature extractors, has at least an order of magnitude fewer parameters, and learns in practically no time. We argue that these results are indicative of issues in current approaches to Visual Dialogue and conduct analyses to highlight implicit dataset biases and effects of over-constrained evaluation metrics. Our code is publicly available.

研究动机与目标

  • 挑战视觉对话中高性能必须依赖复杂神经架构的假设。
  • 探究当前评估指标(如平均排名(MR)和NDCG)是否真正反映视觉对话中模型的实际能力。
  • 揭示VisDial数据集中隐含的偏差以及标准评估协议的过度约束性。
  • 证明简单轻量级模型在MR评估下可实现具有竞争力的性能,提示对特定指标的过拟合可能。
  • 倡导在视觉对话研究中采用更稳健、更少偏差的评估框架。

提出的方法

  • 该方法使用多视图典型相关分析(CCA)学习问题、答案和可选图像之间的联合嵌入。
  • 利用预训练的GloVe和FastText嵌入将问题和答案投影到共享潜在空间,利用预训练的ResNet-34将图像投影到同一空间。
  • 通过计算嵌入后的问题-答案对之间的余弦相似度来对候选答案进行排序,不使用反向传播或微调。
  • 该方法完全忽略视觉输入和对话历史,仅依赖现成特征和数10万量级的参数。
  • 通过相关矩阵的特征分解计算投影矩阵,并采用特征值加权以提升性能。
  • 采用Otsu阈值法的二值聚类启发式方法分析答案相似性,识别出语义上等价的候选答案类别。

实验结果

研究问题

  • RQ1能否使用一种简单、非神经网络、非可微的方法,在不使用视觉或对话历史的情况下,在视觉对话基准上实现具有竞争力的性能?
  • RQ2当前评估指标(如平均排名(MR)和NDCG)在多大程度上真实反映视觉对话中模型的实际能力?
  • RQ3VisDial数据集中是否存在隐含偏差,使得简单模型在忽略关键输入的情况下仍能表现良好?
  • RQ4性能指标(MR、R@1、NDCG)与视觉对话中答案选择的实际质量之间是否存在相关性?
  • RQ5候选答案是否可形成等价类,即多个答案在语义上同样合理,从而削弱真实标签排序的可靠性?

主要发现

  • 该CCA模型仅使用问题和答案特征,即实现了16.60的平均排名(MR),优于使用视觉和历史信息的复杂SOTA模型。
  • 当使用VGG-16和GloVe嵌入时,模型的MR达到15.86,表明其在不同特征提取器下具有鲁棒性。
  • 尽管NDCG和MRR得分较低,但模型的最高排名答案与真实标签高度相关,表明真实标签在一组语义上合理的答案中往往具有任意性。
  • 最高排名答案与真实标签的相关性始终较高,表明答案形成等价类,从而削弱了基于排名指标的有效性。
  • 消融实验表明,CCA模型在性能上优于或匹配移除视觉或历史输入的SOTA模型变体,进一步凸显其鲁棒性。
  • 最近邻基线方法需要在推理时存储训练数据,且MR表现更差;而CCA模型在计算和内存效率上均更优,速度更快、参数更少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。