QUICK REVIEW

[논문 리뷰] UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles

Tianjiao Li, Jun Liu|arXiv (Cornell University)|2021. 04. 02.

Human Pose and Action Recognition참고 문헌 40인용 수 18

한 줄 요약

이 논문은 다양한 도시 및 농촌 환경, 주간/야간 조건, 119명의 주제를 포함하여 총 67,428개의 영상 시퀀스를 포함하는 대규모 다중 모odal 기준인 UAV-Human을 소개한다. 이 기준은 평탄한 RGB 영상에 의해 유도되는 무한 변환 학습을 활용한 물고기눈 영상 행동 인식 방법을 제안하며, 물고기눈 영상에서 34.12%의 CSv1 정확도를 달성하여 이전 방법들을 능가하고 심각한 왜곡을 효과적으로 다루는 데 성공한다.

ABSTRACT

Human behavior understanding with unmanned aerial vehicles (UAVs) is of great significance for a wide range of applications, which simultaneously brings an urgent demand of large, challenging, and comprehensive benchmarks for the development and evaluation of UAV-based models. However, existing benchmarks have limitations in terms of the amount of captured data, types of data modalities, categories of provided tasks, and diversities of subjects and environments. Here we propose a new benchmark - UAVHuman - for human behavior understanding with UAVs, which contains 67,428 multi-modal video sequences and 119 subjects for action recognition, 22,476 frames for pose estimation, 41,290 frames and 1,144 identities for person re-identification, and 22,263 frames for attribute recognition. Our dataset was collected by a flying UAV in multiple urban and rural districts in both daytime and nighttime over three months, hence covering extensive diversities w.r.t subjects, backgrounds, illuminations, weathers, occlusions, camera motions, and UAV flying attitudes. Such a comprehensive and challenging benchmark shall be able to promote the research of UAV-based human behavior understanding, including action recognition, pose estimation, re-identification, and attribute recognition. Furthermore, we propose a fisheye-based action recognition method that mitigates the distortions in fisheye videos via learning unbounded transformations guided by flat RGB videos. Experiments show the efficacy of our method on the UAV-Human dataset. The project page: https://github.com/SUTDCV/UAV-Human

연구 동기 및 목표

UAV 기반 인간 행동 이해를 위한 대규모, 종합적이고 다양한 기준의 부족을 해결하기 위해.
실제 세계의 복잡성을 반영하기 위해 다양한 환경, 시간, UAV 비행 동역학에서 다중 모달 데이터(RGB, 물고기눈, 적외선, 야간 시력)를 수집하기 위해.
왜곡되지 않은 RGB 영상에 의해 유도되는 무한 변환 학습을 통해 심각한 왜곡을 가진 물고기눈 영상에서 행동 인식을 위한 강력한 방법을 개발하기 위해.
행동 인식, 자세 추정, 인물 재식별, 특성 인식 등의 다양한 작업에서 최신 기술 모델을 평가하기 위해.
딥 러닝 모델의 UAV 기반 인간 행동 이해 향상을 위한 체계적인 평가 및 발전을 가능하게 하는 기준을 구축하기 위해.

제안 방법

UAV-Human 기준은 도시 및 농촌 지역에서 3개월 간 UAV를 비행시키며 Azure DK, 물고기눈, 야간 시력 카메라를 장착하여 수집되었다. 주간 및 야간 조건에서 데이터를 촬영하였다.
물고기눈 기반 행동 인식 방법은 왜곡을 보정하기 위해 무한한 공간 변환을 학습하며, 해당 과정은 대응하는 평탄한 RGB 영상 시퀀스에 의해 유도된다.
이 방법은 RGB 영상의 감독 신호를 사용하여 물고기눈 영상에서 왜곡되지 않은 공간으로의 매핑을 학습하는 GT-모듈(Guided Transformation Module)을 활용한다.
행동 인식을 위해, RGB, 물고기눈, 깊이, 적외선, 야간 시력 영상 등의 다양한 모odal에서 모델을 훈련 및 평가하였으며, 교차 집합(CSv1, CSv2) 평가 프로토콜을 사용하였다.
자세 추정은 22,476개의 프레임에서 주제당 17개의 관절 키포인트를 포함하는 라벨을 사용하여, HigherHRNet 및 AlphaPose와 같은 최신 기술 모델을 평가하였다.
인물 재식별 및 특성 인식은 각각 41,290개의 프레임(1,144명의 신원)과 22,263개의 프레임(7개의 특성)을 사용하였으며, ResNet 및 DenseNet 기반 모델을 사용하였다.

실험 결과

연구 질문

RQ1UAV 촬영 영상에서 다양한 영상 모달(예: 물고기눈, RGB, 적외선) 간 행동 인식 모델의 성능은 어떻게 달라지나?
RQ2기계 학습 기반 접근법이 UAV 영상에서 심각한 물고기눈 왜곡을 효과적으로 보정하여 행동 인식에 활용할 수 있는가?
RQ3역동적인 시점 변화와 운동 왜곡이 있는 UAV 환경에서 뼈대 기반 표현 방식과 영상 기반 표현 방식은 어떻게 비교되는가?
RQ4현재 최신 기술 모델의 자세 추정, 인물 재식별, 특성 인식 성능 한계는 무엇인가?
RQ5UAV-Human에서의 주제, 환경, UAV 비행 동역학의 다양성이 기존 모델을 얼마나 도전적으로 만드는가?

주요 결과

유도된 변환을 적용한 제안된 물고기눈 행동 인식 방법은 34.12%의 CSv1 정확도를 달성하여 기준 물고기눈 모델보다 뛰어나며, 왜곡 처리에 효과적임을 입증하였다.
제안된 방법을 적용한 물고기눈 영상에서 23.24%의 CSv1 정확도를 기록하여 기준 모델의 20.76%보다 뚜렷한 향상을 보였으며, 유도된 왜곡 보정의 가치를 입증하였다.
뼈대 기반 방법이 영상 기반 방법보다 행동 인식에서 뛰어난 성능을 보였으며, Shift-GCN은 CSv2에서 67.04%의 Rank-1 정확도를 기록하여 역동적인 UAV 시점에서 뼈대 표현 방식의 강건성을 강조하였다.
자세 추정 모델은 56.5–56.9%의 mAP를 기록하여 UAV 데이터에서 시점 변화, 척도 변화, 가림 현상으로 인해 높은 곤란도를 보였음을 시사하였다.
인물 재식별 모델은 DG-Net을 사용해 최대 85.71%의 mAP를 기록하였으며, 상공에서 이동하는 카메라 시점이 특징 학습에 상당한 도전 과제를 제기하고 있음을 보여주었다.
특성 인식 성능는 옷 색상과 스타일(예: UCC/S에서 44.4%)에서 가장 낮았으며, 다양한 시점과 장기간의 데이터 수집 조건에서 특성 인식의 곤란함을 반영하고 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.