[論文レビュー] A Survey on Multimodal Wearable Sensor-based Human Action Recognition
この調査は、ウェアラブルセンサー基盤の人間の動作認識(WSHAR)のためのマルチモーダル学習をレビューし、CV/NLPのマルチモーダル手法をWSHARに結び付け、データセット、モダリティ、課題を概観します。
The combination of increased life expectancy and falling birth rates is resulting in an aging population. Wearable Sensor-based Human Activity Recognition (WSHAR) emerges as a promising assistive technology to support the daily lives of older individuals, unlocking vast potential for human-centric applications. However, recent surveys in WSHAR have been limited, focusing either solely on deep learning approaches or on a single sensor modality. In real life, our human interact with the world in a multi-sensory way, where diverse information sources are intricately processed and interpreted to accomplish a complex and unified sensing system. To give machines similar intelligence, multimodal machine learning, which merges data from various sources, has become a popular research area with recent advancements. In this study, we present a comprehensive survey from a novel perspective on how to leverage multimodal learning to WSHAR domain for newcomers and researchers. We begin by presenting the recent sensor modalities as well as deep learning approaches in HAR. Subsequently, we explore the techniques used in present multimodal systems for WSHAR. This includes inter-multimodal systems which utilize sensor modalities from both visual and non-visual systems and intra-multimodal systems that simply take modalities from non-visual systems. After that, we focus on current multimodal learning approaches that have applied to solve some of the challenges existing in WSHAR. Specifically, we make extra efforts by connecting the existing multimodal literature from other domains, such as computer vision and natural language processing, with current WSHAR area. Finally, we identify the corresponding challenges and potential research direction in current WSHAR area for further improvement.
研究の動機と目的
- マルチモーダル学習がWSHARにおける精度と頑健性を単一モダリティ HARよりどのように改善する可能性があるか、その動機を説明する。
- HARで使用される視覚データと非視覚データのモダリティとそれぞれの長所・短所を要約する。
- インター模態およびイントラ模態のマルチモーダル HAR アプローチを紹介し、CV/NLPからの知見をWSHARに活用する。
- WSHARのマルチモーダルデータセット、ベンチマーク、蒸留を含む知識転移技術を強調する。
- 現在の課題を特定し、マルチモーダルWSHARの将来研究方向を提案する。
提案手法
- HARデータモダリティを視覚(RGBフレーム、エゴ視点動画、スケルトン)と非視覚(音声、WiFi、慣性計)に分類し、各モダリティのDL手法を要約する。
- HARのためのインターモダリティ融合(視覚+非視覚)とイントラモダリティ融合(非視覚のみ)を説明する。
- マルチモーダルデータセットのベンチマークとCVモデル用の慣性信号を画像様表現へ変換する方法をレビューする。
- センサーベースHARのために教師モダリティから情報を転用する知識転移・知識蒸留のアプローチを議論する。
- CV/NLPからWSHARの課題に対処するための分野横断的なマルチモーダル洞察を統合する。
実験結果
リサーチクエスチョン
- RQ1WSHARにおいてHARに使われる主なデータモダリティと、それぞれの利点と制約は何か?
- RQ2マルチモーダル学習(インター・イントラモーダル)はウェアラブルHARの性能と頑健性をどのように向上させ得るか?
- RQ3マルチモーダルWSHARのデータセットとベンチマークは何があり、規模とラベリングにはどのようなギャップが残っているか?
- RQ4知識転移と蒸留は、プライバシーと効率性に対処しつつマルチモーダルWSHARを可能にする上でどんな役割を果たすか?
- RQ5CV/NLPのマルチモーダル研究から得られる今後の方向性はWSHARをどう進化させるか?
主な発見
| データセット | 年 | モダリティ | クラス数 | 被験者数 | サンプル数 | 視点数 |
|---|---|---|---|---|---|---|
| Gabel et al. [97] | 2012 | D,Ac | 6 | 23 | - | 1 |
| Berkeley MHAD [98] | 2013 | RGB,S,D,Au,Ac | 12 | 12 | 660 | 4 |
| Delachaux et al. [99] | 2013 | D,Ac | 11 | - | - | 4 |
| Liu et al. [100] | 2014 | D,Ac | 6 | 3 | - | 1 |
| UTD-MHAD [101] | 2015 | RGB,S,D,Ac,Gyr | 27 | 8 | 861 | 1 |
| Malleson et al. [102] | 2017 | RGB,Ac | - | 8 | - | 1 |
| Dawar et al. [103] | 2018 | D,Ac | 5 | 12 | - | 1 |
| Manzi et al. [104] | 2018 | RGB, D,Ac | 10 | 20 | - | 1 |
| MMAct [92] | 2019 | RGB,S,Ac,Gyr,etc. | 37 | 20 | 36,764 | 4 |
| EV-Action [105] | 2020 | RGB,S,D,EMG | 20 | 70 | 7,000 | 9 |
| HOMAGE [106] | 2021 | RGB,Ac,Gyr,etc. | 75 | 27 | 1,752 | 2-5 |
| Ego4D [107] | 2022 | RGB,S,D,Au,Ac | - | 923 | - | 1 |
| EPIC-KITCHENS-100 [108] | 2022 | RGB,Au,Ac | - | 45 | 89,979 | 1 |
| VIDIMU [109] | 2023 | RGB,Ac | 13 | 54 | - | 1 |
- 視覚モダリティは豊かな外観情報と姿勢情報を提供するが、プライバシーの問題や視点依存性を生じる。
- 非視覚モダリティ(音声、WiFi、慣性センサ)はプライバシー保護と頑健性を提供する一方、表現力が低かったりノイズが多い場合がある。
- インターモーダルHAR(視覚と非視覚の組み合わせ)およびイントラモーダルアプローチ(非視覚の組み合わせ)は、単一モダリティ HAR を上回る可能性を示している。
- IMUデータを含むWSHARのマルチモーダルデータセットは限られており、MMActやEPIC-KITCHENS-100などの大規模ベンチマークがある一方、多くのデータセットはモダリティ欠如やサンプル不足。
- 蒸馏技術は豊富なモダリティ(例:映像、スケルトン)からセンサーベースHARモデルへ情報を転送できるが、教師と生徒間の性能ギャップは依然課題である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。