QUICK REVIEW

[论文解读] MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless Sensing

Jianfei Yang, He Huang|arXiv (Cornell University)|May 12, 2023

Indoor and Outdoor Localization Technologies被引用 16

一句话总结

MM-Fi 引入了首个五模态、非侵入式的四维人体数据集（RGB、深度、LiDAR、毫米波雷达、WiFi CSI），对40名主体在27个动作上提供丰富的姿态/行为注释，并提供多模态与单模态无线感知的基线基准。

ABSTRACT

4D human perception plays an essential role in a myriad of applications, such as home automation and metaverse avatar simulation. However, existing solutions which mainly rely on cameras and wearable devices are either privacy intrusive or inconvenient to use. To address these issues, wireless sensing has emerged as a promising alternative, leveraging LiDAR, mmWave radar, and WiFi signals for device-free human sensing. In this paper, we propose MM-Fi, the first multi-modal non-intrusive 4D human dataset with 27 daily or rehabilitation action categories, to bridge the gap between wireless sensing and high-level human perception tasks. MM-Fi consists of over 320k synchronized frames of five modalities from 40 human subjects. Various annotations are provided to support potential sensing tasks, e.g., human pose estimation and action recognition. Extensive experiments have been conducted to compare the sensing capacity of each or several modalities in terms of multiple tasks. We envision that MM-Fi can contribute to wireless sensing research with respect to action recognition, human pose estimation, multi-modal learning, cross-modal supervision, and interdisciplinary healthcare research.

研究动机与目标

通过使用非侵入式无线传感器（LiDAR、毫米波、WiFi）来解决相机和可穿戴设备在隐私性和方便性方面的限制。
创建一个大型多模态四维人体数据集，包含对姿态、三维位置和动作的广泛注释。
在无线感知领域实现多模态学习、跨模态监督和领域泛化。
提供基准和工具以推动跨模态的三维人体姿态估计（3D HPE）和动作识别研究。

提出的方法

开发一个同步的移动传感平台，通过ROS捕捉RGB-D、LiDAR、毫米波雷达和WiFi CSI数据，统一帧率为10 Hz。
对2D/3D姿态、3D人体关键点、3D密集姿态、动作类别和3D主体位置进行注释；在多视角三角测量数据上通过优化（L_G 和 L_A）对3D关键点进行优化。
融合 LiDAR 和相机数据，生成一个包围的三维位置信息立方，并利用大约50 mm误差内的高质量地面真值进行注释。
提供来自基于RGB的密集姿态模型的3D密集姿态标签，以便进行无线密集姿态估计实验。
提供时序动作分割标签以及用于便捷多模态和单模态实验的PyTorch数据加载器。

实验结果

研究问题

RQ1在不同数据拆分和协议下，五种非侵入式模态在3D人体姿态估计（HPE）中的比较如何？
RQ2多模态融合是否能提升无线感知中3D HPE和动作识别的鲁棒性与准确性？
RQ3跨受试者和跨环境的泛化如何影响MM-Fi中模态的表现？
RQ4基于多模态数据的无线密集姿态与动作分割的可行性与质量如何？

主要发现

单模态结果显示 LiDAR 在 P1、P2、P3 上的 MPJPE 为 98.1±2.2, 110.1±2.9, 192.3±30.4 mm，PA-MPJPE 为 65.2±0.7, 66.2±1.2, 100.4±5.4 mm。
mmWave 雷达在 S1 的 MPJPE 为 109.8±2.7, 128.4±6.9, 166.2±4.5 mm，PA-MPJPE 为 55.6±1.4, 58.7±4.3, 73.9±2.7 mm。
基于 WiFi CSI 的随机划分下的 3D HPE 的 MPJPE 约为 367.8±0.9 至 369.5±0.3 mm，PA-MPJPE 约为 121.0±2.2 至 121.4±0.1 mm（S3）。
跨受试者结果表明 LiDAR 和 mmWave 泛化良好（PA-MPJPE 仅有几毫米的变化），而 WiFi 由于分辨率有限，泛化性下降。
多模态融合（例如 RGB+LiDAR 或 R+L+W）在若干场景下优于单模态，提高了 HPE 表现，在各种协议中 I+L 与 R+L+W 在 MPJPE/PA-MPJPE 上取得显著提升。
在跨环境场景下，基于毫米波的3D HPE 在模态中仍然最稳健，LiDAR 与 WiFi 性能下降更大；融合可以缓解部分损失。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。