[논문 리뷰] UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery
UAV-DETR은 UAV 영상에 맞춘 DETR 기반의 엔드투엔드 탐지기로, 다중 스케일 특징 융합과 주파수 강화, 주파수 중심의 다운샘플링, 그리고 의미적 정렬을 도입하여 작은 물체/가려짐 물체 탐지를 향상시키고 실시간 추론을 가능하게 한다.
Unmanned aerial vehicle object detection (UAV-OD) has been widely used in various scenarios. However, most existing UAV-OD algorithms rely on manually designed components, which require extensive tuning. End-to-end models that do not depend on such manually designed components are mainly designed for natural images, which are less effective for UAV imagery. To address such challenges, this paper proposes an efficient detection transformer (DETR) framework tailored for UAV imagery, i.e., UAV-DETR. The framework includes a multi-scale feature fusion with frequency enhancement module, which captures both spatial and frequency information at different scales. In addition, a frequency-focused down-sampling module is presented to retain critical spatial details during down-sampling. A semantic alignment and calibration module is developed to align and fuse features from different fusion paths. Experimental results demonstrate the effectiveness and generalization of our approach across various UAV imagery datasets. On the VisDrone dataset, our method improves AP by 3.1\% and $ ext{AP}_{50}$ by 4.2\% over the baseline. Similar enhancements are observed on the UAVVaste dataset. The project page: https://github.com/ValiantDiligent/UAV-DETR
연구 동기 및 목표
- 수동으로 설계된 구성 요소와 튜닝을 피하는 엔드-투-엔드 UAV 물체 탐지의 필요성에 대한 동기 부여.
- 작은 물체 및 가림 문제에 적합한 UAV 영상용 DETR 유사 프레임워크를 엔드-투-엔드로 개발한다.
- 고주파 세부 정보를 보존하기 위한 다중 스케일 특징 융합을 도입한다.
- 해상도 감소 중 공간 세부 정보를 유지하기 위한 주파수 중심의 다운샘플링 모듈을 제안한다.
- 다른 융합 경로의 특징을 융합하기 위한 의미 정합 및 보정 모듈을 설계한다.
제안 방법
- RT-DETR 위에 세 가지 모듈: MSFF-FE, FD, SAC를 갖춘 UAV-DETR를 제안한다.
- MSFF-FE는 여러 스케일에 걸친 공간 정보와 주파수 정보를 결합하여 고주파 세부 정보를 보존한다.
- FD는 쌍방 경로와 주파수 중심의 처리를 통해 이중 도메인 정보를 유지하면서 특징을 다운샘플링한다.
- SAC는 학습된 2D 오프셋과 게이팅 메커니즘을 사용하여 다른 융합 경로의 특징을 정합하고 융합한다.
- Inner-SIoU 손실을 도입하여 작은 물체 탐지 및 수렴을 개선한다.
실험 결과
연구 질문
- RQ1주파수 도메인 정보가 다중 스케일 공간 특징과 어떻게 통합되어 UAV 물체 탐지를 개선할 수 있는가?
- RQ2주파수 중심의 다운샘플링 전략이 효율성을 저해하지 않으면서 작은 물체의 세부 정보를 보존할 수 있는가?
- RQ3다중 경로 융합 특징의 의미 정합이 엔드-투-엔드 UAV-OD 성능을 향상시키는가?
- RQ4VisDrone 및 UAVVaste 데이터셋에서 UAV-DETR이 실시간 UAV 탐지기와 어떻게 비교되는가?
- RQ5Inner-SIoU 손실이 UAV 영상의 바운딩 박스 회귀에 미치는 영향은 무엇인가?
주요 결과
- VisDrone에서 UAV-DETR-R18은 RT-DETR-R18 기준보다 AP를 3.1%포인트, AP50를 4.2%포인트 개선; UAV-DETR-R50은 AP를 3.1%포인트, AP50를 4.1%포인트 개선.
- UAV-DETR-R18은 <100 GFLOPs인 탐지기들 중에서 최첨단 정확도를 달성한다.
- UAVASTE에서 UAV-DETR-R18은 RT-DETR 기준으로 AP와 AP50에서 각각 평균 3.3% 및 3.6%의 개선을 달성한다.
- 수행은 Inner-SIoU, MSFF-FE, FD, SAC가 각각 정확도 증가에 기여하며, 모든 모듈을 결합할 때 가장 높은 AP/AP50를 얻는다.
- 모델은 실시간 추론 속도(FPS)를 유지하면서 유사한 계산 예산의 비교 탐지기들보다 더 높은 정확도를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.