Skip to main content
QUICK REVIEW

[论文解读] Deformable DETR: Deformable Transformers for End-to-End Object Detection

Xizhou Zhu, Weijie Su|arXiv (Cornell University)|Oct 8, 2020
Advanced Neural Network Applications参考文献 44被引用 1,866
一句话总结

Deformable DETR 将标准 Transformer 注意力替换为对参考点周围小集合采样点的变形注意力,从而实现快速收敛并在端到端的 DETR 风格检测器中提升小目标检测能力。它支持多尺度特征与迭代细化,在比 DETR 少得多的训练轮数下取得强劲的 COCO 结果。

ABSTRACT

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10 times less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.

研究动机与目标

  • 促使端到端对象检测,无需如 DETR 那样的手工组件,同时解决收敛慢和小目标性能问题。
  • 引入对稀疏采样点进行关注的变形注意力机制,以降低计算量并提升训练效率。
  • 利用带有变形注意力的多尺度特征,以在不同尺度的物体处理上实现更好效果,而无需强依赖 FPN。

提出的方法

  • 将全局 Transformer 注意力替换为多尺度变形注意力,在每个头周围对参考点采样 K 点(式(2))。
  • 通过从 L 个特征层采样扩展到多尺度特征(式(3))。
  • 将 DETR 的编码器交叉注意力替换为变形注意力;保持自注意力不变。
  • 为每个查询预测参考点,并在解码头使用相对边界框偏移以帮助训练收敛。
  • 在解码器层之间进行迭代边界框细化以提高准确性。
  • 探索两阶段 Deformable DETR,在其中先生成区域提案再由解码器细化。

实验结果

研究问题

  • RQ1变形注意力是否能提供稀疏、数据相关的采样来替代图像特征图的全注意力?
  • RQ2多尺度变形注意力是否能实现高效的端到端对象检测,达到有竞争力的准确度并比 DETR 收敛更快?
  • RQ3迭代边界框细化和两阶段变体对 COCO 性能的影响?

主要发现

方法 EpochsAPAP_50AP_75AP_SAP_MAP_L参数FLOPs训练_GPU_hours推理_FPS
Faster R-CNN + FPN10942.062.145.526.645.453.442M180G38026
DETR50042.062.444.220.545.861.141M86G200028
DETR-DC550043.363.145.922.547.361.141M187G700012
DETR-DC55035.355.736.815.237.553.641M187G70012
DETR-DC5 +5036.257.037.416.339.253.941M187G70012
Deformable DETR5043.862.647.726.447.158.040M173G32519
+ iterative bounding box refinement5045.464.749.026.848.361.740M173G32519
++ two-stage Deformable DETR5046.265.250.028.849.261.740M173G34019
  • Deformable DETR 在 COCO 上的性能优于 DETR,且训练轮数约为其十分之一,尤其显著提升小目标检测。
  • 具有采样点(K)和多特征层(L)的多尺度变形注意力相比单尺度或非变形变体,获得更高的 AP 与 AP_S。
  • 迭代边界框细化和两阶段 Deformable DETR 进一步提升了性能。
  • 在 COCO 2017 验证集上,带细化的 Deformable DETR 在 50 个 epoch 达到 AP 约 45.4–46.2,超过 DETR 在 500 个 epoch 时的 42.0 AP。
  • 与 Faster R-CNN + FPN 相比,Deformable DETR 的 FLOPs 相近,训练速度远快于 DETR-DC5,推理时间接近 Faster R-CNN + FPN。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。