Skip to main content
QUICK REVIEW

[논문 리뷰] Transformers in Small Object Detection: A Benchmark and Survey of State-of-the-Art

Aref Miri Rekavandi, Shima Rashidi|arXiv (Cornell University)|2023. 09. 10.
Advanced Neural Network Applications인용 수 28
한 줄 요약

이 설문조사는 Transformer 기반의 소형 객체 탐지(SOD)를 벤치마킹하고, 왜 트랜스포머가 SOD에서 우수한지 분석하며, 다양한 도메인의 60개가 넘는 연구에 대한 분류 체계를 데이터셋과 지표와 함께 제시합니다.

ABSTRACT

Transformers have rapidly gained popularity in computer vision, especially in the field of object recognition and detection. Upon examining the outcomes of state-of-the-art object detection methods, we noticed that transformers consistently outperformed well-established CNN-based detectors in almost every video or image dataset. While transformer-based approaches remain at the forefront of small object detection (SOD) techniques, this paper aims to explore the performance benefits offered by such extensive networks and identify potential reasons for their SOD superiority. Small objects have been identified as one of the most challenging object types in detection frameworks due to their low visibility. We aim to investigate potential strategies that could enhance transformers' performance in SOD. This survey presents a taxonomy of over 60 research studies on developed transformers for the task of SOD, spanning the years 2020 to 2023. These studies encompass a variety of detection applications, including small object detection in generic images, aerial images, medical images, active millimeter images, underwater images, and videos. We also compile and present a list of 12 large-scale datasets suitable for SOD that were overlooked in previous studies and compare the performance of the reviewed studies using popular metrics such as mean Average Precision (mAP), Frames Per Second (FPS), number of parameters, and more. Researchers can keep track of newer studies on our web page, which is available at \url{https://github.com/arekavandi/Transformer-SOD}.

연구 동기 및 목표

  • 이미지와 비디오 전반에서 CNN 대비 트랜스포머가 소형 객체 탐지를 향상시키는 이유를 설명한다.
  • 트랜스포머 기반 SOD 접근법의 분류 체계를 제시하고 핵심 기법을 분류한다.
  • SOD 성능에 영향을 주는 데이터셋, 지표 및 아키텍처 선택을 조사한다.
  • 소형 객체에 대한 트랜스포머 성능을 더욱 향상시킬 전략들을 식별한다.

제안 방법

  • 객체 표현, 빠른 어텐션, 완전한 트랜스포머 기반 탐지, 아키텍처 수정, 보조 기법, 특징 표현 및 시공간 정보 등의 범주에 걸친 트랜스포머 기반 SOD 방법의 분류 체계를 제시한다.
  • 공통 지표인 mAP, FPS, 매개변수 수 등을 사용하여 트랜스포머 기반 탐지기와 CNN 기반 탐지기를 비교한다.
  • 인코더/디코더, 어텐션 등 기초적인 트랜스포머 개념과 그 한계에 대해 논의한다. DETR, ViT-FRCNN 같은 대표 모델과 SOD에 대한 한계를 다룬다.
  • SOD에 사용된 데이터셋을 검토하고 간과된 대규모 데이터셋을 포함하며 성능 경향을 요약한다.
  • 수렴 속도와 정확도를 개선하는 사전 학습, 데이터 증강, 잡음 제거, 일대다 대 일치 전략 등 보조 전략을 강조한다.

실험 결과

연구 질문

  • RQ1트랜스포머 기반 탐지기의 소형 객체에서의 우수한 성능의 기저 요인은 무엇인가?
  • RQ2객체 표현, 어텐션 메커니즘 및 아키텍처 선택이 SOD 성능에 어떻게 영향을 미치는가?
  • RQ3어떤 데이터셋과 평가 지표가 트랜스포머의 SOD 능력을 가장 잘 드러내며, 어떤 경향이 나타나는가?
  • RQ4소형 객체 탐대를 위한 트랜스포머 성능을 더 향상시킬 전략은 무엇인가?

주요 결과

  • 트랜스포머는 위치 간 상호작용과 컨텍스트를 모델링하는 능력으로 인해 소형 객체 탐지 작업에서 흔히 CNN 기반 탐지기보다 우수하다.
  • 변형 가능하고 다중 규모 어텐션 접근 방식은 계산 부담을 줄이고 공간 해상도를 보존하여 SOD 성능을 향상시킨다.
  • 완전 트랜스포머 기반 탐지기와 아키텍처 혁신 및 보조 기법을 가진 하이브리드(CNN+트랜스포머)들이 소형 객체 로컬라이제이션을 향상시킨다.
  • 사전 학습, 데이터 증강, 잡음 제거, 반복적 정제, 일대다 대 일치 등 다양한 보조 기법이 SOD에서 더 빠른 수렴과 더 나은 정확도에 기여한다.
  • 2022년 이후의 새로운 데이터셋과 포괄적인 분류 체계는 항공, 의학, 수중, SAR, 비디오 등의 다양한 응용을 보여주며 mAP, FPS, 매개변수 효율성에 대한 벤치마크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.