QUICK REVIEW

[论文解读] Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing

Xihui Liu, Zihao Wang|arXiv (Cornell University)|Mar 3, 2019

Multimodal Machine Learning Applications参考文献 45被引用 24

一句话总结

本文提出一种基于跨模态注意力引导的擦除方法，通过在线擦除最显著的视觉或文本特征，生成困难训练样本，以提升指代表达定位性能。通过迫使模型发现超越最显著线索的互补性跨模态对齐，该方法在三个基准数据集上实现最先进性能，展示了通过注意力驱动的多模态擦除实现的更强鲁棒性与泛化能力。

ABSTRACT

Referring expression grounding aims at locating certain objects or persons in an image with a referring expression, where the key challenge is to comprehend and align various types of information from visual and textual domain, such as visual attributes, location and interactions with surrounding regions. Although the attention mechanism has been successfully applied for cross-modal alignments, previous attention models focus on only the most dominant features of both modalities, and neglect the fact that there could be multiple comprehensive textual-visual correspondences between images and referring expressions. To tackle this issue, we design a novel cross-modal attention-guided erasing approach, where we discard the most dominant information from either textual or visual domains to generate difficult training samples online, and to drive the model to discover complementary textual-visual correspondences. Extensive experiments demonstrate the effectiveness of our proposed method, which achieves state-of-the-art performance on three referring expression grounding datasets.

研究动机与目标

解决基于注意力的模型在指代表达定位中过度关注最显著视觉或文本线索、忽略互补信息的局限性。
通过针对性擦除两种模态中高注意力特征，生成困难训练样本，提升模型泛化能力。
通过鼓励发现潜在的、不那么显著的对应关系，克服对频繁观察到的视觉或语言证据的偏见。
设计一种方法，在不增加推理复杂度的前提下，通过跨模态注意力引导提升对齐学习。

提出的方法

该方法利用跨模态注意力权重识别并擦除最显著的特征——基于双模态注意力得分，擦除文本中的高注意力词或图像中的高注意力空间区域。
提出三种擦除策略：图像感知的查询句子擦除（将高注意力词替换为'unknown'）、句子感知的主体区域擦除（擦除高注意力主体区域）、句子感知的上下文物体擦除（擦除主导上下文物体）。
擦除操作在训练过程中在线执行，生成困难负样本，迫使模型依赖互补线索而非主导线索。
该方法结合模态特定特征与跨模态交互，指导擦除过程，确保擦除最显著但未必最信息量的特征。
模型使用这些擦除样本进行端到端训练，推理阶段无需修改，保持高效性。
该方法避免依赖对抗网络或迭代擦除，转而采用注意力引导的单步擦除，兼顾效率与有效性。

实验结果

研究问题

RQ1基于注意力引导的显著特征擦除是否能改善指代表达定位中的跨模态对齐？
RQ2基于跨模态注意力的擦除是否相比自注意力或随机擦除，能更有效地发现互补的文本-视觉对应关系？
RQ3擦除带来的性能提升是否依赖于模态（文本 vs. 视觉）及其交互作用？
RQ4在训练期间擦除是否能在不增加推理复杂度的前提下提升模型鲁棒性？
RQ5注意力引导擦除与堆叠注意力机制相比，在学习多样化对齐方面表现如何？

主要发现

所提出的跨模态注意力引导擦除方法在三个指代表达定位基准数据集（RefCOCO、RefCOCO+ 和 RefCOCOg）上达到最先进性能。
在 RefCOCOg 上，该方法在验证集上达到 80.23% 的准确率，在测试集上达到 80.37%，优于先前方法。
消融实验表明，注意力引导擦除显著优于随机擦除（验证集 79.08%）和对抗性擦除（验证集 79.31%），证实注意力作为引导信号的有效性。
文本与视觉擦除的结合至关重要，仅擦除单一模态会导致次优性能（例如，仅文本擦除时准确率为 79.21%）。
迭代擦除效果较差，因为其可能破坏短指代表达中的语义，限制模型学习。
推理阶段擦除无法提升性能，表明模型在训练期间已学会平衡特征，无需在推理时进行动态掩码。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。