QUICK REVIEW
[论文解读] Shifting the Baseline: Single Modality Performance on Visual Navigation & QA
Jesse Thomason, Daniel Gordon|arXiv (Cornell University)|Nov 1, 2018
Multimodal Machine Learning Applications参考文献 35被引用 23
一句话总结
本文表明,仅使用语言或视觉的单模态模型在视觉导航和第一人称问答任务中通常优于多模态基线模型,揭示了数据集中的强烈偏差。通过消融实验,发现单模态模型的准确率比已发表的基线模型最高高出29%,主张将单模态消融作为多模态研究中必不可少的基准。
ABSTRACT
We demonstrate the surprising strength of unimodal baselines in multimodal domains, and make concrete recommendations for best practices in future research. Where existing work often compares against random or majority class baselines, we argue that unimodal approaches better capture and reflect dataset biases and therefore provide an important comparison when assessing the performance of multimodal techniques. We present unimodal ablations on three recent datasets in visual navigation and QA, seeing an up to 29% absolute gain in performance over published baselines.
研究动机与目标
- 揭示多模态视觉导航和问答数据集中隐藏的偏差,这些偏差倾向于偏好单模态解决方案。
- 挑战将随机或多数类基线作为评估多模态模型的不足标准的做法。
- 倡导将系统性的单模态消融(仅语言、仅视觉)作为评估新型多模态模型的必要组成部分。
- 量化标准基线与单模态模型在三个近期基准(Matterport R2R、IQUAD V1 和 EQA)上的性能差距。
- 通过隔离多模态学习中模态特异性贡献,提供一种评估模型鲁棒性的框架。
提出的方法
- 通过将输入替换为零向量,对多模态模型中的每个模态进行消融,同时保持模型架构和参数不变。
- 评估四种变体:完整模型、仅动作、仅视觉、仅语言,使用与原始模型相同的训练和推理设置。
- 使用与原始论文相同的模型架构,但移除视觉或语言输入,以隔离单模态性能。
- 在三个基准上进行训练和评估:Matterport R2R(导航)、IQUAD V1(导航+问答)和 EQA(第一人称问答)。
- 报告问答任务的top-1准确率和导航任务的成功率,问答评估使用标准黄金路径导航。
- 分析 Matterport 中的动作分布模式,以识别单模态模型可利用的可记忆行为规则。
实验结果
研究问题
- RQ1单模态模型(仅语言或仅视觉)在视觉导航和第一人称问答任务中,能在多大程度上优于多模态基线?
- RQ2何种类型的数据集偏差使得单模态模型无需多模态推理即可实现高性能?
- RQ3标准基线(随机或多数类)与单模态消融相比,在捕捉数据集规律性方面表现如何?
- RQ4单模态消融能否揭示多模态数据集中隐藏的相关性,这些相关性被模型利用而非学习到基于环境的推理?
- RQ5在不同基准上,已发表的多模态基线与单模态消融之间的性能差距是多少?
主要发现
- 在 EQA 基准上,单模态消融比已发表的多模态基线最高高出29%的绝对准确率,其中仅语言模型达到48.8%的准确率,而基线仅为19.8%。
- 在 IQUAD V1 上,仅语言模型达到41.7%的准确率,与多数类基线持平,但仅视觉模型仅达到43.5%,表明由于数据集随机化,单模态性能提升有限。
- 在 Matterport R2R 中,仅语言模型达到44.2%的成功率,显著优于已发表基线的39.3%,表明仅语言即可捕捉导航规律性。
- 在 EQA 上,仅视觉模型达到44.2%的准确率,表明其利用了显著的视觉特征(如颜色和房间布局)来缩小答案空间。
- Matterport 中的动作分布显示出明显的峰值模式(例如,在右转后避免立即左转),使单模态模型能够通过记忆简单规则而非依赖视觉信息来实现性能提升。
- 本研究揭示,多模态模型通常依赖于单模态偏差而非真正的多模态对齐,从而削弱了其在视觉推理方面取得进展的说法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。