QUICK REVIEW

[论文解读] Deformable DETR: Deformable Transformers for End-to-End Object Detection

Xizhou Zhu, Weijie Su|arXiv (Cornell University)|Oct 8, 2020

Advanced Neural Network Applications参考文献 44被引用 1,866

一句话总结

Deformable DETR 将标准 Transformer 注意力替换为对参考点周围小集合采样点的变形注意力，从而实现快速收敛并在端到端的 DETR 风格检测器中提升小目标检测能力。它支持多尺度特征与迭代细化，在比 DETR 少得多的训练轮数下取得强劲的 COCO 结果。

ABSTRACT

DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10 times less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https://github.com/fundamentalvision/Deformable-DETR.

研究动机与目标

促使端到端对象检测，无需如 DETR 那样的手工组件，同时解决收敛慢和小目标性能问题。
引入对稀疏采样点进行关注的变形注意力机制，以降低计算量并提升训练效率。
利用带有变形注意力的多尺度特征，以在不同尺度的物体处理上实现更好效果，而无需强依赖 FPN。

提出的方法

将全局 Transformer 注意力替换为多尺度变形注意力，在每个头周围对参考点采样 K 点（式(2)）。
通过从 L 个特征层采样扩展到多尺度特征（式(3)）。
将 DETR 的编码器交叉注意力替换为变形注意力；保持自注意力不变。
为每个查询预测参考点，并在解码头使用相对边界框偏移以帮助训练收敛。
在解码器层之间进行迭代边界框细化以提高准确性。
探索两阶段 Deformable DETR，在其中先生成区域提案再由解码器细化。

实验结果

研究问题

RQ1变形注意力是否能提供稀疏、数据相关的采样来替代图像特征图的全注意力？
RQ2多尺度变形注意力是否能实现高效的端到端对象检测，达到有竞争力的准确度并比 DETR 收敛更快？
RQ3迭代边界框细化和两阶段变体对 COCO 性能的影响？

主要发现

方法	Epochs	AP	AP_50	AP_75	AP_S	AP_M	AP_L	参数	FLOPs	训练_GPU_hours	推理_FPS
Faster R-CNN + FPN	109	42.0	62.1	45.5	26.6	45.4	53.4	42M	180G	380	26
DETR	500	42.0	62.4	44.2	20.5	45.8	61.1	41M	86G	2000	28
DETR-DC5	500	43.3	63.1	45.9	22.5	47.3	61.1	41M	187G	7000	12
DETR-DC5	50	35.3	55.7	36.8	15.2	37.5	53.6	41M	187G	700	12
DETR-DC5 +	50	36.2	57.0	37.4	16.3	39.2	53.9	41M	187G	700	12
Deformable DETR	50	43.8	62.6	47.7	26.4	47.1	58.0	40M	173G	325	19
+ iterative bounding box refinement	50	45.4	64.7	49.0	26.8	48.3	61.7	40M	173G	325	19
++ two-stage Deformable DETR	50	46.2	65.2	50.0	28.8	49.2	61.7	40M	173G	340	19

Deformable DETR 在 COCO 上的性能优于 DETR，且训练轮数约为其十分之一，尤其显著提升小目标检测。
具有采样点(K)和多特征层(L)的多尺度变形注意力相比单尺度或非变形变体，获得更高的 AP 与 AP_S。
迭代边界框细化和两阶段 Deformable DETR 进一步提升了性能。
在 COCO 2017 验证集上，带细化的 Deformable DETR 在 50 个 epoch 达到 AP 约 45.4–46.2，超过 DETR 在 500 个 epoch 时的 42.0 AP。
与 Faster R-CNN + FPN 相比，Deformable DETR 的 FLOPs 相近，训练速度远快于 DETR-DC5，推理时间接近 Faster R-CNN + FPN。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。