[论文解读] Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR
Lite DETR 通过互嵌多尺度编码器和 KDA 注意力增强 Deformable DETR 与 DINO,在计算量减少的同时实现具有竞争力的精度,并提升小目标检测。
Recent DEtection TRansformer-based (DETR) models have obtained remarkable performance. Its success cannot be achieved without the re-introduction of multi-scale feature fusion in the encoder. However, the excessively increased tokens in multi-scale features, especially for about 75\% of low-level features, are quite computationally inefficient, which hinders real applications of DETR models. In this paper, we present Lite DETR, a simple yet efficient end-to-end object detection framework that can effectively reduce the GFLOPs of the detection head by 60\% while keeping 99\% of the original performance. Specifically, we design an efficient encoder block to update high-level features (corresponding to small-resolution feature maps) and low-level features (corresponding to large-resolution feature maps) in an interleaved way. In addition, to better fuse cross-scale features, we develop a key-aware deformable attention to predict more reliable attention weights. Comprehensive experiments validate the effectiveness and efficiency of the proposed Lite DETR, and the efficient encoder strategy can generalize well across existing DETR-based models. The code will be available in \url{https://github.com/IDEA-Research/Lite-DETR}.
研究动机与目标
- 以 Deformable DETR 与 DINO 骨架实现高效目标检测的动机。
- 在降低计算量的同时保持高分辨率低层特征。
- 引入 KDA 注意力以改善小目标检测并减少重复检测。
- 评估 Lite-Deformable DETR 与 Lite DINO 相对于 Sparse DETR 和 DINO-3scale 基线。
- 提供定性分析与失败案例以验证设计选择。
提出的方法
- 通过互嵌多尺度编码器计算来提出 Lite DETR。
- 采用 KDA 注意力以提升对低层特征的采样。
- 与 Sparse DETR 与 DINO-3scale 进行对比,展示在小对象与大对象上的收益。
- 使用可视化分析来说明采样位置与注意力行为。
- 给出基线与 Lite 模型在 AP 指标与 GFLOPs 的定量结果。
实验结果
研究问题
- RQ1相对于基线 DETR 变体,互嵌多尺度编码器配合 KDA 注意力是否能改善小目标检测?
- RQ2Lite DETR 是否在保持或提升跨尺度 AP 的同时降低计算量(GFLOPs)?
- RQ3Lite DETR 相对于 Sparse DETR 与 DINO-3scale 在中等与大对象上的表现如何?
- RQ4是否需要保留高分辨率的低层特征,Lite DINO 与 DINO-3scale 的比较如何?
- RQ5Lite DETR 的失败模式有哪些,如何 mitigated?
主要发现
| 模型 | #epochs | AP | AP50 | AP75 | AP_S | AP_M | AP_L | GFLOPs | Encoder GFLOPs | 参数 |
|---|---|---|---|---|---|---|---|---|---|---|
| Deformable DETR | 50 | 46.8 | 66.0 | 50.6 | 29.8 | 49.7 | 62.0 | 177 | 90 | 40M |
| Lite-Deformable DETR H3L1-(2+1)x3(25%, ours) | 50 | 46.7 | 66.1 | 50.6 | 29.1 | 49.7 | 62.2 | 123 | 39 | 41M |
| Sparse DETR ∗ -rho-0.3 | 50 | 46.0 | 65.9 | 49.7 | 29.1 | 49.1 | 60.6 | 127 | 40 | 41M |
- Lite-Deformable DETR 在相似 GFLOPs 下获得更高的 AP_L(AP_L 62.2 对比 60.6)。
- Lite DETR 变体保留高层与低层特征的互作用以改善小目标检测并通过 KDA 注意力减少重复检测。
- KDA 注意力在小物体检测中优于可变形注意力,并在 Lite DINO 中减少重复检测。
- Lite DINO 采用类似 Lite-3scale 的设计,保持与原始 DINO 相当的性能,但 GFLOPs 略高。
- 直接丢弃高分辨率特征图(DINO-3scale)会恶化小物体检测,而 Lite DINO 能维持性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。