[论文解读] Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art
本综述基准测试基于 transformer 的小目标检测器(SOD),分析为何 transformers 在 SOD 上表现出色,并绘制跨越多领域、包含数据集与度量标准的 60 多项研究的分类
Transformers have rapidly gained popularity in computer vision, especially in the field of object recognition and detection. Upon examining the outcomes of state-of-the-art object detection methods, we noticed that transformers consistently outperformed well-established CNN-based detectors in almost every video or image dataset. While transformer-based approaches remain at the forefront of small object detection (SOD) techniques, this paper aims to explore the performance benefits offered by such extensive networks and identify potential reasons for their SOD superiority. Small objects have been identified as one of the most challenging object types in detection frameworks due to their low visibility. We aim to investigate potential strategies that could enhance transformers' performance in SOD. This survey presents a taxonomy of over 60 research studies on developed transformers for the task of SOD, spanning the years 2020 to 2023. These studies encompass a variety of detection applications, including small object detection in generic images, aerial images, medical images, active millimeter images, underwater images, and videos. We also compile and present a list of 12 large-scale datasets suitable for SOD that were overlooked in previous studies and compare the performance of the reviewed studies using popular metrics such as mean Average Precision (mAP), Frames Per Second (FPS), number of parameters, and more. Researchers can keep track of newer studies on our web page, which is available at \url{https://github.com/arekavandi/Transformer-SOD}.
研究动机与目标
- 解释为何 transformer 相较于 CNN 在跨图像和视频的小目标检测中提升性能。
- 提供基于 transformer 的 SOD 方法的分类法,并对关键技术进行归类。
- 调研影响 SOD 性能的数据集、评测指标和体系结构选择。
- 确定进一步提升 transformer 在小目标检测中的性能的策略。
提出的方法
- 给出基于 transformer 的 SOD 方法的分类,覆盖对象表示、快速注意力、全 transformer 检测、体系结构修改、辅助技术、特征表示,以及时空信息等类别。
- 使用常见度量如 mAP、FPS 和参数数量,将基于 transformer 的检测器与基于 CNN 的检测器进行比较。
- 讨论基础的 transformer 概念(编码器/解码器、注意力)以及里程碑模型(DETR、ViT-FRCNN)及其在 SOD 方面的局限性。
- 回顾用于 SOD 的数据集,包括被忽视的大规模数据集,并总结性能趋势。
- 突出显示可提升收敛性和准确性的辅助策略(预训练、数据增强、去噪、迭代细化、one-to-many 指派 vs one-to-one 指派等)。
实验结果
研究问题
- RQ1哪些因素促成基于 transformer 的检测器在小目标上的优越性能?
- RQ2对象表示、注意力机制和体系结构选择如何影响 SOD 性能?
- RQ3哪些数据集和评测指标最能揭示 transformer 的 SOD 能力,以及出现了哪些趋势?
- RQ4哪些策略可以进一步提升 transformer 在小目标检测中的性能?
主要发现
- 由于其建模位置之间的交互和上下文的能力,Transformer 经常在小目标检测任务上优于基于 CNN 的检测器。
- 可形变和多尺度注意力方法降低计算开销并保持空间分辨率,提升 SOD 性能。
- 全 transformer 的检测器和混合模型(CNN+transformer)结合结构创新与辅助技术,实现对小目标定位的提升。
- 大量辅助技术(预训练、数据增强、去噪、迭代细化、one-to-many 指派)有助于更快收敛和提高 SOD 的准确性。
- 2022 年后新的数据集和全面的分类法揭示了多样的应用场景(航拍、医疗、水下、SAR、视频)并提供 mAP、FPS 和参数效率的基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。