[论文解读] UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles
本文提出了UAV-Human,一个大规模、多模态的无人机航拍人类行为理解基准,涵盖67,428段视频序列,覆盖多样化的城市与农村环境、昼夜条件及119名受试者。本文提出了一种基于全景鱼眼视频的动作识别方法,利用平面RGB视频引导的无界变换学习,实现在鱼眼数据上的34.12% CSv1准确率,优于先前方法,有效处理严重畸变。
Human behavior understanding with unmanned aerial vehicles (UAVs) is of great significance for a wide range of applications, which simultaneously brings an urgent demand of large, challenging, and comprehensive benchmarks for the development and evaluation of UAV-based models. However, existing benchmarks have limitations in terms of the amount of captured data, types of data modalities, categories of provided tasks, and diversities of subjects and environments. Here we propose a new benchmark - UAVHuman - for human behavior understanding with UAVs, which contains 67,428 multi-modal video sequences and 119 subjects for action recognition, 22,476 frames for pose estimation, 41,290 frames and 1,144 identities for person re-identification, and 22,263 frames for attribute recognition. Our dataset was collected by a flying UAV in multiple urban and rural districts in both daytime and nighttime over three months, hence covering extensive diversities w.r.t subjects, backgrounds, illuminations, weathers, occlusions, camera motions, and UAV flying attitudes. Such a comprehensive and challenging benchmark shall be able to promote the research of UAV-based human behavior understanding, including action recognition, pose estimation, re-identification, and attribute recognition. Furthermore, we propose a fisheye-based action recognition method that mitigates the distortions in fisheye videos via learning unbounded transformations guided by flat RGB videos. Experiments show the efficacy of our method on the UAV-Human dataset. The project page: https://github.com/SUTDCV/UAV-Human
研究动机与目标
- 为解决无人机航拍人类行为理解领域缺乏大规模、全面且多样化的基准问题。
- 在不同环境、时间及无人机飞行动态下,收集多模态数据(RGB、鱼眼、红外、夜视),以反映真实世界复杂性。
- 通过学习无界变换并借助无畸变RGB视频作为指导,开发一种在高度畸变鱼眼视频中实现鲁棒动作识别的方法。
- 在多个任务上评估最先进模型的表现:动作识别、姿态估计、行人重识别与属性识别。
- 建立一个基准,以实现对无人机航拍人类行为理解深度学习模型的系统性评估与持续推进。
提出的方法
- UAV-Human基准通过搭载Azure DK、鱼眼与夜视相机的无人机,在城市与农村地区连续三个月采集数据,覆盖白天与夜间条件。
- 提出一种基于鱼眼视频的动作识别方法,通过学习无界空间变换来校正畸变,其指导信号来自对应的平面RGB视频序列。
- 该方法采用GT-Module(引导变换模块),利用RGB视频提供的监督信号,学习从鱼眼图像到无畸变空间的映射关系。
- 在动作识别任务中,模型在多种模态(RGB、鱼眼、深度、红外、夜视)上进行训练与评估,并采用跨子集(CSv1、CSv2)评估协议。
- 姿态估计通过在22,476帧上使用17个关键点标注进行评估,采用HigherHRNet与AlphaPose等最先进模型。
- 行人重识别与属性识别分别基于41,290帧(1,144个身份)与22,263帧(7种属性)进行评估,采用ResNet与DenseNet基线模型。
实验结果
研究问题
- RQ1在无人机采集的数据中,不同视频模态(如鱼眼、RGB、红外)下的动作识别模型性能如何变化?
- RQ2基于学习的方法能否有效校正无人机视频中严重的鱼眼畸变以提升动作识别性能?
- RQ3在动态视角与运动模糊的无人机场景中,基于骨骼的表征与基于视频的表征相比表现如何?
- RQ4当前最先进模型在姿态估计、行人重识别与属性识别任务上的性能极限是什么?
- RQ5UAV-Human中受试者、环境与无人机飞行动态的多样性在多大程度上对现有模型构成挑战?
主要发现
- 所提出的基于引导变换的鱼眼动作识别方法在CSv1上达到34.12%准确率,优于基线鱼眼模型,证明其在处理畸变方面的有效性。
- 采用该方法的鱼眼视频在CSv1上达到23.24%准确率,显著优于20.76%的基线水平,凸显了引导畸变校正的价值。
- 基于骨骼的方法在动作识别中优于基于视频的方法,Shift-GCN在CSv2上达到67.04% Rank-1准确率,表明骨骼表征在动态无人机视角下具有更强鲁棒性。
- 姿态估计模型仅达到56.5–56.9% mAP,表明因视角变化、尺度差异与遮挡导致任务难度极高。
- 行人重识别模型最高达到85.71% mAP(DG-Net),表明俯视、移动相机视角对特征学习构成显著挑战。
- 属性识别中,服装颜色与款式的性能最低(如UCC/S为44.4%),反映出在多样化视角与长期数据采集下属性识别的困难。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。