[论文解读] Efficient DETR: Improving End-to-End Object Detector with Dense Prior
Efficient DETR 引入密集先验来初始化对象容器,使得能够实现一个1解码器的端到端检测器,在性能上与6解码器的DETR相比仍具竞争力,同时收敛更快,已在 COCO 和 CrowdHuman 上验证。
The recently proposed end-to-end transformer detectors, such as DETR and Deformable DETR, have a cascade structure of stacking 6 decoder layers to update object queries iteratively, without which their performance degrades seriously. In this paper, we investigate that the random initialization of object containers, which include object queries and reference points, is mainly responsible for the requirement of multiple iterations. Based on our findings, we propose Efficient DETR, a simple and efficient pipeline for end-to-end object detection. By taking advantage of both dense detection and sparse set detection, Efficient DETR leverages dense prior to initialize the object containers and brings the gap of the 1-decoder structure and 6-decoder structure. Experiments conducted on MS COCO show that our method, with only 3 encoder layers and 1 decoder layer, achieves competitive performance with state-of-the-art object detection methods. Efficient DETR is also robust in crowded scenes. It outperforms modern detectors on CrowdHuman dataset by a large margin.
研究动机与目标
- 研究为何 DETR 风格检测器需要多次解码器迭代。
- 探索对象容器(查询与参考点)的初始化如何影响性能。
- 提出使用密集-稀疏混合的 DETR(Efficient DETR),利用密集先验来提升端到端检测与收敛速度。
- 在 COCO 与 CrowdHuman 数据集上验证该方法,并与最先进的检测器进行对比。
提出的方法
- 分析解码器层与辅助损失在 DETR 性能中的作用。
- 研究通过参考点和对象查询进行对象容器的初始化,包括来自区域 proposals 的密集先验。
- 引入 Efficient DETR,具有密集与稀疏分支,使用共同的检测头并采用可变形注意力。
- 使用前K 个密集 proposals 初始化参考点与对象查询,从而实现1解码器的细化阶段。
- 采用匈牙利单一分配进行训练,并对密集部分和稀疏部分使用统一损失;在训练过程中线性减少 proposals 的数量。
实验结果
研究问题
- RQ1对象容器(查询与参考点)的初始化如何影响端到端 DETR 模型的收敛性与准确性?
- RQ2引入密集先验(来自区域 proposals)是否能降低对级联解码器迭代的需求,从而缩小1解码器与6解码器架构之间的差距?
- RQ3密集-稀疏双分支设计(Efficient DETR)对 COCO 与 CrowdHuman 等拥挤场景有何影响?
主要发现
- 解码器的辅助损失与级联细化是 DETR 性能的关键;在简单设置中减少解码器层会显著降低 AP。
- 通过区域 proposals 和密集特征进行密集先验初始化,显著提升1解码器的性能,接近6解码器的结果。
- Efficient DETR 在 COCO 上以 3 encoders 和 1 decoder 获得 44.2 AP,训练 36 epoch,性能超越 Faster R-CNN 及许多端到端检测器,同时参数量更少。
- Efficient DETR 在拥挤场景(CrowdHuman)仍然具有鲁棒性,100 个 proposals 即可获得具有竞争力的 AP 且具有较强的泛化;在某些设置下增加 proposals 的收益递减。
- 在训练中对 proposals 数量采用线性下降策略有助于稳定学习,并在较少 proposals 的情况下保持高精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。