[论文解读] Blindfold Baselines for Embodied QA
本文提出了用于具身视觉问答(EQA)的简单仅问题基线(盲眼基线),表明仅依赖文本输入的模型——使用平均词嵌入或最近邻答案分布——在EQAv1数据集上实现了最先进性能,多数情况下优于基于多模态导航的方法。关键发现是当前EQA模型未能有效利用视觉上下文,暗示数据集存在偏差且环境特征利用不佳。
We explore blindfold (question-only) baselines for Embodied Question Answering. The EmbodiedQA task requires an agent to answer a question by intelligently navigating in a simulated environment, gathering necessary visual information only through first-person vision before finally answering. Consequently, a blindfold baseline which ignores the environment and visual information is a degenerate solution, yet we show through our experiments on the EQAv1 dataset that a simple question-only baseline achieves state-of-the-art results on the EmbodiedQA task in all cases except when the agent is spawned extremely close to the object.
研究动机与目标
- 评估仅问题基线是否能超越使用视觉和导航输入的多模态具身QA模型。
- 探究当前最先进EQA方法是否真正利用环境上下文,还是仅依赖数据集偏差。
- 识别并量化EQAv1数据集中使纯文本模型在无视觉感知下仍能取得高性能的偏差。
- 为未来EQA研究提供强有力的基线,以更准确评估真正的多模态推理与具身性。
- 凸显当前EQA模型在利用感官输入方面的局限性,即使导航成功亦无法改善表现。
提出的方法
- 采用词袋(BoW)平均嵌入模型,通过平均词嵌入计算问题的固定向量表示,再通过线性分类器预测答案。
- 采用最近邻答案分布(NN-AnswerDist)基线,基于训练数据统计,为给定问题预测最频繁的答案。
- 复现并对比PACMAN与NMC模型的已发表结果,使用与原始研究相同的评估协议,在EQAv1上测试不同目标物体距离的生成距离。
- 通过分析数据集中答案分布频率来量化偏差,表明少数答案主导了标签空间。
- 按问题类型(如介词、位置、颜色)进行错误分析,评估模型在不同语义类别中的表现。
- 评估使用完美导航轨迹的“理想”VQA系统,以确定视觉输入利用的理论上限,并与纯文本基线进行比较。
实验结果
研究问题
- RQ1仅问题基线能否超越使用视觉和导航输入的多模态具身QA模型?
- RQ2当前EQA模型在多大程度上依赖数据集偏差而非真实的环境理解?
- RQ3EQAv1数据集中哪些具体偏差使高性能纯文本模型得以实现?
- RQ4在导航中使用视觉上下文是否真正提升了问答性能,还是反而造成损害?
- RQ5当与VQA模型结合时,理想导航系统相对于纯文本基线的性能如何?
主要发现
- BoW仅问题基线在EQAv1上达到50.34%的top-1准确率,优于所有已发表的多模态方法,仅在代理距离目标物体10步时例外。
- 最近邻答案分布基线达到48.45%的准确率,表明答案频率偏差本身即可解释数据集中大部分性能表现。
- 错误分析显示,BoW模型在介词类问题上表现极差(仅9.09%准确率),原因在于该类别训练频率低且答案熵高。
- 即使使用理想导航(完美轨迹),将其与VQA模型结合后性能仍低于纯文本基线,表明视觉输入若未正确整合,反而可能损害推理能力。
- 本研究证实,现有EQA模型并未有效利用视觉上下文,因为在大多数设置下其表现均低于简单的纯文本模型。
- 尽管原始作者已进行熵剪枝,EQAv1数据集仍存在显著的答案分布偏差,使退化基线能够实现SOTA性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。