QUICK REVIEW

[論文レビュー] MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless Sensing

Jianfei Yang, He Huang|arXiv (Cornell University)|May 12, 2023

Indoor and Outdoor Localization Technologies被引用数 16

ひとこと要約

MM-Fi は、40名の被験者、27のアクションをカバーする、5モダリティの非侵襲的な4D 人間データセット（RGB、深度、LiDAR、mmWave レーダー、WiFi CSI）と、マルチ・単一モードの無線センシングのベースラインベンチマークを初めて提供します。

ABSTRACT

4D human perception plays an essential role in a myriad of applications, such as home automation and metaverse avatar simulation. However, existing solutions which mainly rely on cameras and wearable devices are either privacy intrusive or inconvenient to use. To address these issues, wireless sensing has emerged as a promising alternative, leveraging LiDAR, mmWave radar, and WiFi signals for device-free human sensing. In this paper, we propose MM-Fi, the first multi-modal non-intrusive 4D human dataset with 27 daily or rehabilitation action categories, to bridge the gap between wireless sensing and high-level human perception tasks. MM-Fi consists of over 320k synchronized frames of five modalities from 40 human subjects. Various annotations are provided to support potential sensing tasks, e.g., human pose estimation and action recognition. Extensive experiments have been conducted to compare the sensing capacity of each or several modalities in terms of multiple tasks. We envision that MM-Fi can contribute to wireless sensing research with respect to action recognition, human pose estimation, multi-modal learning, cross-modal supervision, and interdisciplinary healthcare research.

研究の動機と目的

カメラとウェアラブルのプライバシーと利便性の制約を、LiDAR、mmWave、WiFiなどの非侵襲的無線センサーを用いて解消する。
extensive annotations による大規模な多モーダル4D 人間データセットを作成し、ポーズ、3D位置、アクションの注釈を拡充する。
無線センシングにおけるマルチモーダル学習、クロスモーダル監視、ドメイン一般化を実現する。
3D HPE とアクション認識の研究を進めるためのベンチマークとツールを提供する。

提案手法

ROS による RGB-D、LiDAR、mmWave レーダー、WiFi CSI データを同期収録するモバイルセンサープラットフォームを開発し、統一された 10 Hz のフレームレートを実現する。
2D/3D ポーズ、3D ボディランドマーク、3D 密ポーズ、アクションカテゴリ、3D 主体位置を注釈化し、マルチビュー三角測量データ上で最適化（L_G および L_A）によって3D キーポイントを改良する。
LiDAR とカメラデータを融合して、周囲を囲む3D位置キューブを生成し、約50 mm の誤差内の高品質なグラウンドトゥルースを用いて注釈化する。
RGB ベースの密ポーズモデルから導出された3D密ポーズラベルを提供し、無線密ポーズ推定実験を可能にする。
時系列アクションセグメンテーションラベルと、マルチ・シングルモーダル実験のための PyTorch データローダを提供する。

実験結果

リサーチクエスチョン

RQ15つの非侵襲モダリティは、さまざまなデータ分割とプロトコルの下で3D 人間ポーズ推定（HPE）にどのような比較をもたらすか？
RQ2マルチモーダル融合は無線センシングにおける3D HPEとアクション認識の頑健性と精度を向上させるか？
RQ3クロス被験者・クロス環境の一般化は MM-Fi のモダリティの性能にどのような影響を与えるか？
RQ4マルチモーダルデータから導出される無線密ポーズとアクションセグメンテーションの実現性と品質は？

主な発見

単一モダリティの結果では、LiDAR が MPJPE を 98.1±2.2, 110.1±2.9, 192.3±30.4 mm、PA-MPJPE を 65.2±0.7, 66.2±1.2, 100.4±5.4 mm（P1, P2, P3、それぞれ S1）で達成。
mmWave レーダーは MPJPE を 109.8±2.7, 128.4±6.9, 166.2±4.5 mm、PA-MPJPE を 55.6±1.4, 58.7±4.3, 73.9±2.7 mm（S1）で示す。
WiFi CSI ベースの3D HPE はランダム分割下で MPJPE が約 367.8±0.9 〜 369.5±0.3 mm、PA-MPJPE が約 121.0±2.2 〜 121.4±0.1 mm（S3）となる。
クロス被験者結果は LiDAR と mmWave が良く一般化することを示し（PA-MPJPE の変化は数 mm の範囲）、一方で WiFi は分解能の制限から一般化が劣る。
マルチモーダル融合（例：RGB+LiDAR あるいは R+L+W）は、いくつかの設定で単一モダリティを上回るHPE性能を示し、I+L および R+L+W はプロトコル全体で MPJPE/PA-MPJPE に顕著な改善を達成。
クロス環境のシナリオでは、mmWave を用いた3D HPE がモダリティの中で最も頑健で、LiDAR と WiFi は性能低下が大きく、融合は一部の損失を緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。