Skip to main content
QUICK REVIEW

[论文解读] Cross-Modal Self-Attention Network for Referring Image Segmentation

Linwei Ye, Mrigank Rochan|arXiv (Cornell University)|Apr 9, 2019
Multimodal Machine Learning Applications参考文献 31被引用 46
一句话总结

论文提出了跨模态自注意力(CMSA)模块,用以在指向性图像分割中捕捉语言与视觉之间的长程依赖;并提出门控多级融合以整合多尺度特征,在四个数据集上实现了state-of-the-art的结果。

ABSTRACT

We consider the problem of referring image segmentation. Given an input image and a natural language expression, the goal is to segment the object referred by the language expression in the image. Existing works in this area treat the language expression and the input image separately in their representations. They do not sufficiently capture long-range correlations between these two modalities. In this paper, we propose a cross-modal self-attention (CMSA) module that effectively captures the long-range dependencies between linguistic and visual features. Our model can adaptively focus on informative words in the referring expression and important regions in the input image. In addition, we propose a gated multi-level fusion module to selectively integrate self-attentive cross-modal features corresponding to different levels in the image. This module controls the information flow of features at different levels. We validate the proposed approach on four evaluation datasets. Our proposed approach consistently outperforms existing state-of-the-art methods.

研究动机与目标

  • 推动对图片中由自然语言描述的对象进行准确分割,超越简单的基于类别的线索。
  • 捕捉语言特征与视觉特征之间的长程依赖,以提升 referring 分割。
  • 开发一种机制,以受控的信息流选择性地整合多层 CNN 特征。

提出的方法

  • 通过将图像特征、词嵌入以及每个图像位置和单词的 8-D 空间坐标结合起来,构建多模态特征。
  • 应用跨模态自注意力(CMSA)模块,通过学习的查询、键和值以及残差连接,在单词与空间区域之间学习长程依赖。
  • 通过在单词维度上进行平均池化来汇聚 CMSA 输出,从而获得每个位置的多模态特征。
  • 引入门控多级融合(GF)模块,使用1x1卷积、记忆门和重置门,以及上下文控制器,从三个 CNN 级别(Res3、Res4、Res5)选择性地融合特征。
  • 通过 3x3 卷积和 sigmoid 产生最终分割掩码,使用二元交叉熵损失训练,并用 Adam 优化。

实验结果

研究问题

  • RQ1跨模态自注意力是否能够有效地建模语言与视觉之间在指向性图像分割中的长程依赖?
  • RQ2门控多级融合机制是否能够改进在多个 CNN 特征层次上的分割掩码的细化和准确性?
  • RQ3单词级注意力与句子级编码在多模态分割性能上有何差异?
  • RQ4多层特征融合方法对标准基准测试中分割质量的影响如何?

主要发现

  • CMSA 方法在四个基准数据集(UNC、UNC+、G-Ref、ReferIt)上始终优于现有方法。
  • 在消融实验中,带有 CMSA 的单词级多模态表示优于基于句子编码及其他注意力变体。
  • 门控多级融合模块提升了 CMSA 特征的多尺度整合,优于 Deconv、PPM、ConvLSTM 和简单门控基线。
  • 定性分析显示,对应于属性、关系或对象名词的级别特定单词注意力,以及对不同查询的空间热力图反应。
  • 消融研究证实跨模态自注意力和门控融合优于单独组件。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。