[논문 리뷰] UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects
UFO-DETR은 LSKNet 백본, 변형 가능 어텐션, 그리고 DynFreq-C3 모듈을 사용하여 실시간 효율성과 함께 소형 물체 탐지를 향상시키는 경량의 엔드-투-엔드 UAV 검출기입니다.
Small target detection in UAV imagery faces significant challenges such as scale variations, dense distribution, and the dominance of small targets. Existing algorithms rely on manually designed components, and general-purpose detectors are not optimized for UAV images, making it difficult to balance accuracy and complexity. To address these challenges, this paper proposes an end-to-end object detection framework, UFO-DETR, which integrates an LSKNet-based backbone network to optimize the receptive field and reduce the number of parameters. By combining the DAttention and AIFI modules, the model flexibly models multi-scale spatial relationships, improving multi-scale target detection performance. Additionally, the DynFreq-C3 module is proposed to enhance small target detection capability through cross-space frequency feature enhancement. Experimental results show that, compared to RT-DETR-L, the proposed method offers significant advantages in both detection performance and computational efficiency, providing an efficient solution for UAV edge computing.
연구 동기 및 목표
- 규모 변이와 밀집한 장면에서 UAV 영상에서 강건한 소형 물체 탐지를 촉진한다.
- 정확도와 엣지 디바이스 효율성을 균형 있게 맞추면서 NMS가 없는 경량 엔드-투-엔드 탐지기를 개발한다.
- 동적 수용 영역 백본과 주파수 인지 모듈을 통합하여 소형 물체 특징을 강화한다.
- UAV의 작은 물체를 위한 효율적인 다중 스케일 공간 관계 모델링을 가능하게 한다.
제안 방법
- 매개변수와 계산량을 줄이기 위해 LSKNet을 백본으로 채택한다.
- DAttention을 AIFI에 도입하여 다중 스케일에 걸쳐 핵심 영역을 동적으로 샘플링한다.
- 고주파 텍스처 세부를 위한 공간-주파수 도메인 특징을 융합하기 위해 DynFreq-C3를 도입한다.
- RT-DETR 구성 요소를 LSKNet 백본과 DyFreqC3 기반의 cross-spatial-frequency decoder (CCFD)로 교체하여 엔드-투-엔드 탐지를 수행한다.
- VisDrone2019에서 Mosaic 증강과 표준 최적화 알고리즘으로 엔드-투-엔드 학습을 수행하여 실시간 성능을 평가한다.
실험 결과
연구 질문
- RQ1동적 수용 필드를 갖춘 경량 백본이 UAV 데이터에서 소형 물체 탐지 정확도를 유지할 수 있는가?
- RQ2변형 가능 어텐션이 작은 UAV 표적에 대한 다중 스케일 특징 융합을 개선하는가?
- RQ3교차-공간-주파수 융합이 복잡한 배경에서 고주파 디테일 회복 및 소형 물체 구분 능력을 향상시키는가?
주요 결과
| Model | P/% | R/% | mAP50/% | GFLOPs | Model Size/MB |
|---|---|---|---|---|---|
| YOLOv8-M | 53.5 | 37.4 | 40.7 | 78.9 | 52 |
| YOLOv8-L | 51.8 | 39.7 | 40.6 | 164.9 | 87.7 |
| YOLOv10-M | 49.9 | 36.7 | 37.9 | 63.5 | 33.5 |
| YOLOv10-L | 51.6 | 38.4 | 39.8 | 126.4 | 52.2 |
| YOLOv11-M | 51.8 | 38.1 | 39.6 | 67.7 | 40.5 |
| YOLOv11-L | 53.0 | 38.3 | 39.8 | 86.6 | 51.2 |
| RTDETR-L | 59.0 | 42.4 | 43.5 | 103.5 | 66.2 |
| RTDETR-R18 | 55.1 | 40.2 | 41.5 | 57.0 | 40.5 |
| RTDETR-R50 | 58.3 | 44.5 | 45.2 | 129.6 | 86.1 |
| Ours | 59.2 | 44.5 | 46.1 | 41.8 | 28.3 |
- UFO-DETR은 RT-DETR 기준선보다 더 높은 Precision, Recall, 및 mAP50을 달성한다(59.2% P, 44.5% R, 46.1% mAP50 대 59.0% P, 42.4% R, 43.5% mAP50).
- 모델은 GFLOPs를 41.8로, 모델 크기를 28.3 MB로 축소하여 베이스라인 대비 효율이 향상됐다.
- LSKNet 백본은 매개변수를 감소시키고 유사한 정확도를 유지한다(기준 RT-DETR-R18의 103.5 GFLOPs 및 66.2 MB가 LSKNet으로 경량화되며 성능 유지).
- DAttention은 Recall과 mAP50을 각각 43.0%와 44.2%로 개선하여 AIFI 단독 베이스라인보다 우수하다.
- DynFreq-C3는 엔드-투-엔드 프레임워크 내에서 소형 객체 탐지에 추가 이득을 가져다준다.
- VisDrone2019에서 UFO-DETR은 정확도 측면에서 주류 detector를 능가하면서 계산 비용이 낮고 실시간 추론을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.