Skip to main content
QUICK REVIEW

[论文解读] RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder

Cheng Chi, Fangyun Wei|arXiv (Cornell University)|Oct 29, 2020
Advanced Neural Network Applications参考文献 40被引用 36
一句话总结

RelationNet++ 引入 Bridging Visual Representations (BVR),一种基于注意力的模块,将异构的对象表示(例如中心、角点、锚点)融合到单一检测器中,在 RetinaNet、Faster R-CNN、FCOS 和 ATSS 上获得一致的 AP 增益,并在强骨干上达到 COCO test-dev 的 52.7 AP。

ABSTRACT

Existing object detection frameworks are usually built on a single format of object/part representation, i.e., anchor/proposal rectangle boxes in RetinaNet and Faster R-CNN, center points in FCOS and RepPoints, and corner points in CornerNet. While these different representations usually drive the frameworks to perform well in different aspects, e.g., better classification or finer localization, it is in general difficult to combine these representations in a single framework to make good use of each strength, due to the heterogeneous or non-grid feature extraction by different representations. This paper presents an attention-based decoder module similar as that in Transformer~\cite{vaswani2017attention} to bridge other representations into a typical object detector built on a single representation format, in an end-to-end fashion. The other representations act as a set of \emph{key} instances to strengthen the main \emph{query} representation features in the vanilla detectors. Novel techniques are proposed towards efficient computation of the decoder module, including a \emph{key sampling} approach and a \emph{shared location embedding} approach. The proposed module is named \emph{bridging visual representations} (BVR). It can perform in-place and we demonstrate its broad effectiveness in bridging other representations into prevalent object detection frameworks, including RetinaNet, Faster R-CNN, FCOS and ATSS, where about $1.5\sim3.0$ AP improvements are achieved. In particular, we improve a state-of-the-art framework with a strong backbone by about $2.0$ AP, reaching $52.7$ AP on COCO test-dev. The resulting network is named RelationNet++. The code will be available at https://github.com/microsoft/RelationNet2.

研究动机与目标

  • 推动在单一检测器中结合多种对象/部件表示,以发挥它们的互补优势。
  • 开发一个通用的端到端桥接(BVR),用辅助表示增强主表示。
  • 通过关键采样和共享位置信息嵌入来确保高效性,使推理保持实用。
  • 展示 BVR 对多种检测器的即插即用适用性(RetinaNet、Faster R-CNN、FCOS、ATSS)。
  • 在数据集(COCO)和最先进的骨干网络上展示收益。

提出的方法

  • 引入 Bridging Visual Representations (BVR),一种基于注意力的模块,其中主表示充当查询,辅助表示充当键,以加强查询特征。
  • 使用多头注意力形式,包含外观相似性和几何项,结合相对位置嵌入和一个小型 MLP。
  • 实现关键采样(top-k),以选择一组可控且高质量的辅助表示。
  • 应用共享的相对位置嵌入以高效计算几何项,降低时间和内存成本。
  • 为分类(中心辅助)和回归(角点辅助)使用分离的 BVR 分支,以提升各自任务。
  • 就地将 BVR 集成到检测器中,用增强特征替代分类/回归的输入特征。

实验结果

研究问题

  • RQ1是否可以在不改变主推理流程的前提下,有效地桥接异构的对象/部件表示(锚点、中心、角点)以提升检测?
  • RQ2在控制计算量的同时,哪些高效机制可用来计算跨表示的交互(关键采样、共享位置嵌入)?
  • RQ3为分类与回归设置分离的桥接分支是否能带来更好的定位与识别?
  • RQ4BVR 在 COCO 上对多种检测器(单阶段、双阶段、基于锚点、无锚点)能提升到何种程度?

主要发现

  • BVR 对 RetinaNet、Faster R-CNN、FCOS 和 ATSS 的提升大约为 1.5–3.0 AP。
  • 在金字塔级别之间使用共享的键比独立的键带来更好的增益,50 个键即可获得强劲结果。
  • 亚像素中心/角点表示对 AP 有显著提升,尤其在定位方面。
  • 共享相对位置嵌入在显著降低内存和 FLOPs 的同时(例如 42× 内存节省),保持或提高精度。
  • 为分类(中心)和回归(角点)设置分开的 BVR 模块,效果优于共享设置。
  • 将 BVR 应用于强大的 ATSS 骨干,在 COCO test-dev 上达到 52.7 AP(采用多尺度测试)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。