QUICK REVIEW

[論文レビュー] FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision

Zekai Wu, Shuqi Fan|arXiv (Cornell University)|Mar 20, 2026

Human Pose and Action Recognition被引用数 0

ひとこと要約

FlashCapはイベントカメラと点滅LEDを用いたフラッシュモーションキャプチャを提案し、1000 Hzのグラウンドトゥルースラベルとミリ秒の動作タイミングを実現。FlashMotionデータセットとResPoseベースラインを提示。

ABSTRACT

Precise motion timing (PMT) is crucial for swift motion analysis. A millisecond difference may determine victory or defeat in sports competitions. Despite substantial progress in human pose estimation (HPE), PMT remains largely overlooked by the HPE community due to the limited availability of high-temporal-resolution labeled datasets. Today, PMT is achieved using high-speed RGB cameras in specialized scenarios such as the Olympic Games; however, their high costs, light sensitivity, bandwidth, and computational complexity limit their feasibility for daily use. We developed FlashCap, the first flashing LED-based MoCap system for PMT. With FlashCap, we collect a millisecond-resolution human motion dataset, FlashMotion, comprising the event, RGB, LiDAR, and IMU modalities, and demonstrate its high quality through rigorous validation. To evaluate the merits of FlashMotion, we perform two tasks: precise motion timing and high-temporal-resolution HPE. For these tasks, we propose ResPose, a simple yet effective baseline that learns residual poses based on events and RGBs. Experimental results show that ResPose reduces pose estimation errors by ~40% and achieves millisecond-level timing accuracy, enabling new research opportunities. The dataset and code will be shared with the community.

研究の動機と目的

スポーツや関連分野における迅速なモーション分析のための正確な動作タイミング（PMT）を重要視する動機付け。
人間姿勢推定（HPE）のミリ秒解像度ラベル付きデータセットの不足を克服する。
携帯型のフラッシュLED MoCapシステムと高 temporal-解像データ注釈パイプラインを提案する。
1000 Hzのグラウンドトゥルースデータと多モーダルデータ、高品質ラベルを備えたFlashMotionを作成。
高頻度のイベントデータを活用してHPEをミリ秒スケールで改善する強力なベースラインとしてResPoseを導入する。

提案手法

身体に17個のLEDと17個のIMUを取り付けたFlashCap MoCap衣装を設計。
RGBカメラとイベントカメラ（任意でLiDAR/IMUを含む）からなるマルチモーダルキャプチャデバイスを使用。
LED誘起のイベントクラスタを関節位置へ写像して1000 Hzのグラウンドトゥルースラベルを生成するデータ注釈パイプラインを開発。
低解像度のRGBアンカーと高解像度のイベントベース残差を統合して1000 Hzのポーズ推定を行う二系統のResPoseフレームワークを提案。
ResPoseではローカルイベントパッチ上のSNN-CNNエンコーダでマイクロモーションを抽出し、RGBアンカーとマルチモーダルTransformer残差回帰器で結合し、スケルトン認識自己注意に誘導する。
FlashMotionデータセット上で手法を実演し、PMTと高 temporal-解像HPEタスクをベンチマークする。

実験結果

リサーチクエスチョン

RQ1実世界条件下で点滅LEDとイベントストリームから1000 Hzのグラウンドトゥルース姿勢ラベルを信頼性高く生成できるか。
RQ2RGBアンカー上の高 temporal-解像残差はRGBのみやイベントのみのベースラインと比較してミリ秒スケールの姿勢推定を改善するか。
RQ3FlashMotionデータセットはPMTと高 temporal-解像HPEベンチマークを十分にサポートするか。
RQ4様々な動作・条件でのアノテーションパイプラインのエンドツーエンドのラベリング精度とリコールはどの程度か。

主な発見

Method	Kicking (ms)	Punching (ms)	Jumping (ms)
ViTPose	48.5	62.3	31.4
Hybrid ANN-SNN	85.2	54.1	66.7
LEIR	112.4	135.8	78.2
ResPose (Ours)	7.2	4.8	6.5

FlashMotionは1000 Hzの2Dラベルと60 Hzの3D SMPLラベルを備えた初のミリ秒精度ヒューマンモーションデータセットで、4つのシーンで20名のボランティアから収集された。
完全なアノテーションパイプラインは評価対象シーケンスにおいて99.99%の精度と98.82%のリコールを達成。
ResPoseはRGB補間ベースラインと比較して平均姿勢誤差を約40%低減。
PMT結果ではResPoseが単一桁ミリ秒のタイミング誤差を達成（例: Kicking 7.2 ms、Punching 4.8 ms、Jumping 6.5 ms）。
ResPose（本研究）は高 temporal-解像HPEタスクでMPJPE 5.66、PCK0.3 0.97、PCK0.5 0.99と報告の評価において最高の性能を示す。
1000 Hzのグラウンドトゥルースラベリングは、ミリ秒精度の分析のための既存の低フレームレートHPE法の限界を明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。