Skip to main content
QUICK REVIEW

[论文解读] Rotate to Attend: Convolutional Triplet Attention Module

Diganta Misra, Trikay Nalamada|arXiv (Cornell University)|Oct 6, 2020
Advanced Neural Network Applications参考文献 35被引用 51
一句话总结

Triplet attention 是一个轻量级的三分支模块,捕捉跨维度交互(C-H、C-W、H-W),不降低维度,CNN 可即插即用,极小开销下提升 ImageNet 和 COCO 性能。

ABSTRACT

Benefiting from the capability of building inter-dependencies among channels or spatial locations, attention mechanisms have been extensively studied and broadly used in a variety of computer vision tasks recently. In this paper, we investigate light-weight but effective attention mechanisms and present triplet attention, a novel method for computing attention weights by capturing cross-dimension interaction using a three-branch structure. For an input tensor, triplet attention builds inter-dimensional dependencies by the rotation operation followed by residual transformations and encodes inter-channel and spatial information with negligible computational overhead. Our method is simple as well as efficient and can be easily plugged into classic backbone networks as an add-on module. We demonstrate the effectiveness of our method on various challenging tasks including image classification on ImageNet-1k and object detection on MSCOCO and PASCAL VOC datasets. Furthermore, we provide extensive in-sight into the performance of triplet attention by visually inspecting the GradCAM and GradCAM++ results. The empirical evaluation of our method supports our intuition on the importance of capturing dependencies across dimensions when computing attention weights. Code for this paper can be publicly accessed at https://github.com/LandskapeAI/triplet-attention

研究动机与目标

  • 研究能够建模 CNN 特征中跨维度依赖的经济且有效的注意力机制。
  • 提出一种跨维度注意力方法,保留所有信息(无降维)。
  • 在标准骨干网络上作为插件模块评估该方法,覆盖分类和检测任务。

提出的方法

  • 引入具有三个并行分支的 triplet attention,捕捉 (C, H)、(C, W) 和 (H, W) 的交互。
  • 使用张量旋转和 Z-pool(最大池化与平均池拼接)随后经过一个 k x k 的卷积来生成注意力图。
  • 通过简单平均汇聚分支输出,生成经精炼的特征图且不进行降维。
  • 与 CBAM 和 SE 相比,强调跨维度交互,参数和 FLOP 开销可忽略不计。
  • 提供分析与经验复杂度比较,显示极低开销(例如 triplet attention 的参数项为 6k^2)。

实验结果

研究问题

  • RQ1在不进行瓶颈式降维的情况下,跨维度交互是否能提升注意力质量?
  • RQ2相对于 CBAM、SE 及其他注意力模块,triplet attention 的计算和参数成本是多少?
  • RQ3triplet attention 的增益是否能转化为 ImageNet 分类以及 MS COCO/PASCAL VOC 目标检测任务的提升?
  • RQ4与基线相比,triplet attention 如何影响 Grad-CAM 可视化解释?

主要发现

  • Triplet attention 在 ResNet-50 上带来 2.28% 的 Top-1 准确度提升,参数仅增加 0.02%,FLOP 增加约 1%。
  • 在 ImageNet 的不同骨干网络上,triplet attention 与相似模块媲美或超越,同时使用更少参数(例如注意力层的开销为 0.0048M)。
  • 在目标检测中,ResNet-50 + Triplet Attention 相较基线和 CBAM 提升了 Faster R-CNN、RetinaNet、Mask R-CNN 的结果,在 COCO 验证集上有显著 AP 提升。
  • 在 PASCAL VOC 上,使用 Triplet Attention 的 Faster R-CNN 取得的 AP 高于 CBAM 和 基线 ResNet-50。
  • Grad-CAM/Grad-CAM++ 可视化表明,与基线相比,Triplet Attention 产生更紧凑、 更具辨识性的定位模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。