QUICK REVIEW

[论文解读] Modality-Agnostic Attention Fusion for visual search with text feedback

Eric McVoy Dodds, Jack Culpepper|arXiv (Cornell University)|Jun 30, 2020

Multimodal Machine Learning Applications参考文献 57被引用 48

一句话总结

MAAF 通过模态无关注意力将图像和文本标记融合，以实现文本修改的图像检索，在 Fashion IQ 和 CSS 上达到最先进的结果，在 Fashion200k 上也有竞争力的表现。

ABSTRACT

Image retrieval with natural language feedback offers the promise of catalog search based on fine-grained visual features that go beyond objects and binary attributes, facilitating real-world applications such as e-commerce. Our Modality-Agnostic Attention Fusion (MAAF) model combines image and text features and outperforms existing approaches on two visual search with modifying phrase datasets, Fashion IQ and CSS, and performs competitively on a dataset with only single-word modifications, Fashion200k. We also introduce two new challenging benchmarks adapted from Birds-to-Words and Spot-the-Diff, which provide new settings with rich language inputs, and we show that our approach without modification outperforms strong baselines. To better understand our model, we conduct detailed ablations on Fashion IQ and provide visualizations of the surprising phenomenon of words avoiding "attending" to the image region they refer to.

研究动机与目标

通过图像加自然语言反馈来驱动细粒度视觉检索，超越简单属性。
开发一种融合机制，使图像和文本标记在注意力处理时统一对待。
在多个人工时尚领域和语言丰富的检索数据集上对该方法进行经验评估。
提供消融实验和定性分析，以理解组件贡献和注意力行为。

提出的方法

将图像和文本输入表示为每个模态提取的标记序列（图像：ResNet 特征图；文本：LSTM 嵌入）。
将图像和文本标记连接起来，并以模态无关的方式应用自注意力，在模态间共享 Q/K/V。
在每种标记类型内对标记输出进行池化并求平均，形成用于最近邻搜索的单一嵌入。
使用基于批次的分类损失对查询-目标对进行训练，以优化 recall@k。
探索包括跨注意力和多注意力块的变体，以及评估不同的文本表示（Embedding, LSTM, Transformer, BERT）。

实验结果

研究问题

RQ1模态无关的注意力融合是否可在文本修改的图像检索中超过跨模态注意力变体？
RQ2图像-文本标记融合策略在文本复杂度不同的数据集上如何影响检索准确性？
RQ3不同文本表示和多分辨率图像标记对检索性能有何影响？
RQ4更丰富的语言输入和新基准是否揭示融合方法的优点/局限？

主要发现

方法	R1
MAAF (ours)	87.8 ± 0.9

MAAF 在 Fashion IQ 验证集上实现了最佳单模型性能，超过了该数据集上此前的单模型方法（且在不使用外部数据的情况下接近最新技术水平）。
在 CSS 上，MAAF 达到 87.8 recall@1，显著高于此前的方法，如 TIRG 和 FiLM。
多种注意力变体表明，单流模态无关设计在 Fashion IQ 上优于若干双流跨注意力配置。
使用基于 LSTM 的文本编码器并以随机初始化的嵌入，在该任务中常常优于更丰富的自注意力文本编码器。
定性分析显示反直觉的注意力行为，即修改的词汇往往关注与其指称对象不直接对应的区域。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。