QUICK REVIEW

[논문 리뷰] Unmanned Aerial Vehicle Visual Detection and Tracking using Deep Neural Networks: A Performance Benchmark

Brian K. S. Isaac-Medina, Matt Poyser|arXiv (Cornell University)|2021. 03. 25.

Video Surveillance and Tracking Methods참고 문헌 51인용 수 95

한 줄 요약

이 논문은 가시광선 및 적외선 영상에서 딥 러닝 기반 드론 탐지 및 추적을 위한 최초의 종합적 벤치마크를 제시한다. 세 가지 다양한 데이터셋에서 네 가지 객체 탐지기와 세 가지 트래커를 평가하며, 탐지에서는 98.6%의 mAP, 추적에서는 98.7%의 MOTA를 기록하여 최신 기술 수준을 달성한다. 적외선에서 가시광선 스펙트럼으로의 다중 모odal 전이 능력도 입증되었으며, 이는 82.8%의 mAP로 확인되었다.

ABSTRACT

Unmanned Aerial Vehicles (UAV) can pose a major risk for aviation safety, due to both negligent and malicious use. For this reason, the automated detection and tracking of UAV is a fundamental task in aerial security systems. Common technologies for UAV detection include visible-band and thermal infrared imaging, radio frequency and radar. Recent advances in deep neural networks (DNNs) for image-based object detection open the possibility to use visual information for this detection and tracking task. Furthermore, these detection architectures can be implemented as backbones for visual tracking systems, thereby enabling persistent tracking of UAV incursions. To date, no comprehensive performance benchmark exists that applies DNNs to visible-band imagery for UAV detection and tracking. To this end, three datasets with varied environmental conditions for UAV detection and tracking, comprising a total of 241 videos (331,486 images), are assessed using four detection architectures and three tracking frameworks. The best performing detector architecture obtains an mAP of 98.6% and the best performing tracking framework obtains a MOTA of 96.3%. Cross-modality evaluation is carried out between visible and infrared spectrums, achieving a maximal 82.8% mAP on visible images when training in the infrared modality. These results provide the first public multi-approach benchmark for state-of-the-art deep learning-based methods and give insight into which detection and tracking architectures are effective in the UAV domain.

연구 동기 및 목표

딥 뉴럴 네트워크를 사용한 드론 탐지 및 추적을 위한 표준화되고 다중 데이터셋 기반의 벤치마크를 구축하기 위해.
다양한 환경 조건 및 영상 조건에서 최첨단 객체 탐지 및 추적 아키텍처의 성능을 평가하기 위해.
적외선 및 가시광선 대역의 드론 영상 간 다중 모달 전이 학습을 조사하기 위해.
실제 환경에서의 반드론 응용을 위한 가장 강력한 탐지 및 추적 프레임워크를 규명하기 위해.
자동 드론 탐지 및 추적 분야의 연구를 가속화하기 위해 공개 벤치마크 툴킷을 제공하기 위해.

제안 방법

연구는 세 가지 드론 데이터셋(MAV-VID, Drone-vs-Bird, Anti-UAV)에서 네 가지 객체 탐지 아키텍처(Faster R-CNN, YOLOv3, SSD512, DETR)를 평가한다.
세 가지 트래킹 프레임워크(SORT, DeepSORT, Tracktor)는 탐지된 바운딩 박스를 시간적 연동을 위한 입력으로 사용한다.
다중 모달 평가를 위해 적외선 데이터로 학습하고 가시광선 영상에서 테스트하는 방식과 반대로 수행한다.
벤치마크는 표준 메트릭을 사용한다: 탐지에 대해서는 평균 평균 정확도(mAP), 추적에 대해서는 다중 객체 추적 정확도(MOTA).
데이터셋은 지상 기반 및 드론에 장착된 카메라를 포함하며, 다양한 거리, 동적인 시나리오, 광학 및 열적 적외선 조건에서 드론을 촬영한다.
평가 과정은 복잡한 배경, 고속 카메라 운동, 음영 등을 포함한 다양한 환경 조건에서 수행된다.

실험 결과

연구 질문

RQ1다양한 환경 조건에서 가시광선 영상에서 드론에 대해 가장 높은 mAP를 달성하는 딥 러닝 객체 탐지 아키텍처는 무엇인가?
RQ2예를 들어 적외선에서 가시광선으로의 다중 모달 학습이 드론 탐지 성능에 어떤 영향을 미치는가?
RQ3어떤 트래킹 프레임워크가 도전적인 시각 조건에서 작은, 빠르게 움직이는 드론을 추적할 때 가장 높은 MOTA를 달성하는가?
RQ4카메라 운동과 배경의 복잡성은 트래킹 시스템의 성능에 어떤 영향을 미치는가?
RQ5일반적인 객체 탐지기들이 드론 전용 탐지 및 추적 작업에 얼마나 효과적으로 적응될 수 있는가?

주요 결과

가장 뛰어난 성능을 보인 탐지기인 YOLOv3는 가시광선 드론 영상에서 평균 평균 정확도(mAP)가 98.6%를 기록하였다.
Faster R-CNN은 소형 드론에 대해 가장 높은 mAP(최대 0.770)를 기록하여 조기 탐지에 뛰어난 성능을 보였다.
Tracktor 트래킹 프레임워크는 98.7%의 최고 MOTA를 기록하여 고속 카메라 운동과 장기 추적에 효과적임을 입증하였다.
적외선 데이터로 학습하고 가시광선 영상에서 테스트하는 다중 모달 탐지 방식은 82.8%의 mAP를 기록하여 두 모달 간 효과적인 전이 능력을 입증하였다.
DETR 기반 탐지 백본은 강력한 성능(mAP > 0.94)을 보이며, 반드론 시스템에서 소형 객체 추적에 적합하다.
DeepSORT와 Tracktor의 재식별 네트워크는 항상 성능 향상을 가져오지 않으며, 오히려 성능 저하를 초래할 수 있어, 드론 전용 재식별 모델이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.