[论文解读] SOLQ: Segmenting Objects by Learning Queries
SOLQ提出了一个建立在DETR之上的端到端实例分割框架,学习统一查询表示以通过使用编码压缩技术的掩码向量来预测类别、边界框和掩码。它在COCO上达到最先进的结果,并通过联合多任务学习改进DETR的检测性能。
In this paper, we propose an end-to-end framework for instance segmentation. Based on the recently introduced DETR [1], our method, termed SOLQ, segments objects by learning unified queries. In SOLQ, each query represents one object and has multiple representations: class, location and mask. The object queries learned perform classification, box regression and mask encoding simultaneously in an unified vector form. During training phase, the mask vectors encoded are supervised by the compression coding of raw spatial masks. In inference time, mask vectors produced can be directly transformed to spatial masks by the inverse process of compression coding. Experimental results show that SOLQ can achieve state-of-the-art performance, surpassing most of existing approaches. Moreover, the joint learning of unified query representation can greatly improve the detection performance of DETR. We hope our SOLQ can serve as a strong baseline for the Transformer-based instance segmentation. Code is available at https://github.com/megvii-research/SOLQ.
研究动机与目标
- 提出一个端到端的实例分割框架,避免像NMS这样的后处理。
- 将分类、定位和分割统一为一个可学习的查询表示。
- 将高分辨率掩码编码为紧凑的掩码向量,以实现高效监督和重建。
- 在COCO上展示具有竞争力或最先进的性能,同时通过联合学习改进DETR的检测性能。
提出的方法
- 在DETR基础上使用可学习的对象查询。
- 引入统一查询表示(UQR)以并行化三个子任务(分类、定位、分割)。
- 通过压缩编码(DCT、PCA、稀疏编码)将空间掩码编码为低维掩码向量,以进行监督和重建。
- 使用联合损失进行训练,包括检测损失和不属于二分匹配的一种掩码向量回归损失。
实验结果
研究问题
- RQ1统一查询表示是否能在不使用基于ROI的后处理的情况下实现端到端的实例分割?
- RQ2通过UQR进行检测和分割的联合学习是否相较于DETR能同时提升两个任务?
- RQ3哪种掩码压缩方案在掩码重构质量和分割性能方面效果最好?
- RQ4多解码器辅助监督对掩码和检测性能的影响是什么?
主要发现
| Method | Backbone | Epochs | AP seg | AP seg S | AP seg M | AP seg L | AP box | AP box S | AP box M | AP box L |
|---|---|---|---|---|---|---|---|---|---|---|
| SOLQ, ours | R50 | 50 | 39.7 | 21.5 | 42.5 | 53.1 | 48.7 | 28.6 | 51.7 | 63.1 |
| SOLQ, ours | R101 | 50 | 40.9 | 22.5 | 43.8 | 54.6 | 48.7 | 28.6 | 51.7 | 63.1 |
| SOLQ, ours | Swin-L | 50 | 46.7 | 29.2 | 50.1 | 60.9 | 56.5 | 37.6 | 60.0 | 70.6 |
- SOLQ在COCO test-dev上在实例分割(AP seg)和对象检测(AP box)两项上均达到最先进性能。
- 使用统一查询表示在所测试的骨干网络上显著提升DETR的框AP约2个百分点。
- 在测试方法中,使用DCT的掩码压缩在分割和检测性能之间提供最佳平衡。
- 跨多个解码器的辅助掩码向量损失提升了分割和检测指标。
- 搭载Swin-L骨干的SOLQ达到很高的性能,例如在COCO test-dev上的AP seg为46.7,AP box为60.9。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。