[论文解读] MAttNet: Modular Attention Network for Referring Expression Comprehension
MAttNet 将 referring expressions 分解为主体、位置和关系模块,使用语言引导注意力与视觉注意力,在不依赖外部解析器的情况下实现状态-of-the-art 的边界框与像素级理解。
In this paper, we address referring expression comprehension: localizing an image region described by a natural language expression. While most recent work treats expressions as a single unit, we propose to decompose them into three modular components related to subject appearance, location, and relationship to other objects. This allows us to flexibly adapt to expressions containing different types of information in an end-to-end framework. In our model, which we call the Modular Attention Network (MAttNet), two types of attention are utilized: language-based attention that learns the module weights as well as the word/phrase attention that each module should focus on; and visual attention that allows the subject and relationship modules to focus on relevant image components. Module weights combine scores from all three modules dynamically to output an overall score. Experiments show that MAttNet outperforms previous state-of-art methods by a large margin on both bounding-box-level and pixel-level comprehension tasks. Demo and code are provided.
研究动机与目标
- 通过模块化网络应对表达变异性来解决指称表达理解问题。
- 通过学习将表达软解析为模块,消除对外部语言解析器的依赖。
- 通过模块特定的视觉注意力和自适应组合实现高定位与分割精度。
提出的方法
- 将表达分解为主体、位置和关系模块的三种短语嵌入。
- 使用语言注意力网络学习模块权重和词/短语注意力,无需外部解析器。
- 采用三种视觉模块,具备不同的注意力机制(主体:盒内软注意力;关系:盒外硬注意力)。
- 计算模块特定的分数 S(o|q) 并结合学习到的模块权重 w_subj, w_loc, w_rel 汇总得到 S(o|r)。
- 通过正负样本对的排序损失和具备属性感知的主体分支进行训练;端到端学习。
实验结果
研究问题
- RQ1一个端到端的模块化模型是否可以在不依赖外部解析器的情况下提升指称表达理解?
- RQ2主体、位置和关系信息如何提升定位和分割性能?
- RQ3学到的语言注意力是否能够有效地将信息分配给合适的视觉模块?
- RQ4盒内注意力与盒外注意力对理解准确度的影响是什么?
主要发现
- MAttNet 在边界框定位和像素级分割方面相较于此前的最先进方法取得了显著的提升。
- 端到端训练结合软语言解析与自适应模块权重,相较于单一模型基线带来显著提升。
- 主体模块的属性感知、短语引导的盒内注意力在提升外观相关表达的准确性方面表现出色。
- 关系模块采用盒外注意力和 MIL 风格的最大池化,增强了对对象关系的处理能力。
- 使用检测到的候选 proposal(Faster R-CNN / Mask R-CNN)进行全自动识别,在各数据集上保持强劲增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。