[论文解读] FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision
FlashCap 通过闪烁 LED 的 MoCap 与事件摄像头实现 1000 Hz 的地真标签与毫秒级运动时序,提出 FlashMotion 数据集与 ResPose 基线。
Precise motion timing (PMT) is crucial for swift motion analysis. A millisecond difference may determine victory or defeat in sports competitions. Despite substantial progress in human pose estimation (HPE), PMT remains largely overlooked by the HPE community due to the limited availability of high-temporal-resolution labeled datasets. Today, PMT is achieved using high-speed RGB cameras in specialized scenarios such as the Olympic Games; however, their high costs, light sensitivity, bandwidth, and computational complexity limit their feasibility for daily use. We developed FlashCap, the first flashing LED-based MoCap system for PMT. With FlashCap, we collect a millisecond-resolution human motion dataset, FlashMotion, comprising the event, RGB, LiDAR, and IMU modalities, and demonstrate its high quality through rigorous validation. To evaluate the merits of FlashMotion, we perform two tasks: precise motion timing and high-temporal-resolution HPE. For these tasks, we propose ResPose, a simple yet effective baseline that learns residual poses based on events and RGBs. Experimental results show that ResPose reduces pose estimation errors by ~40% and achieves millisecond-level timing accuracy, enabling new research opportunities. The dataset and code will be shared with the community.
研究动机与目标
- 动机:将精确运动时序(PMT)视为快速运动分析(如体育及相关领域)的关键
- 克服缺乏毫秒分辨率的人体姿态估计(HPE)标注数据集
- 提出便携式闪烁 LED MoCap 系统及高时间分辨率数据标注流水线
- 创建 FlashMotion,即具多模态数据与高质量标签的 1000 Hz 地真数据集
- 引入 ResPose 作为一个强基线,利用高频事件数据提升毫秒量级的 HPE 性能
提出的方法
- 设计一个包含 17 颗 LED 和 17 个 IMU 的 FlashCap MoCap 着装,贴身安装
- 使用由 RGB 相机和事件相机组成的多模态采集设备(可选配 LiDAR/IMU)
- 开发数据标注流水线,将 LED 引发的事件簇映射到关节位置以生成 1000 Hz 的地真标签
- 提出 ResPose:一个两分支框架,将低速 RGB 锚点与高速事件残差融合,给出 1000 Hz 姿态估计
- 在 ResPose 中,利用 SNN-CNN 编码器对局部事件贴片提取微运动,并通过多模态 Transformer 残差回归器与 RGB 锚点融合,辅以骨架感知自注意力
- 在 FlashMotion 数据集上演示方法并对 PMT 与高时域分辨率 HPE 任务进行基准评估
实验结果
研究问题
- RQ1是否能够在真实世界条件下,从闪烁 LED 与事件流中可靠地产生 1000 Hz 的地真姿态标签?
- RQ2在 RGB 锚点之上添加高时域残差是否相对于仅 RGB 或仅事件的基线提升毫秒级姿态估计?
- RQ3FlashMotion 数据集在支持精确运动时序(PMT)与高时域分辨率 HPE 基准方面的表现如何?
- RQ4标注流水线在不同运动与条件下的端到端标注精度与召回率是多少?
主要发现
| Method | Kicking (ms) | Punching (ms) | Jumping (ms) |
|---|---|---|---|
| ViTPose | 48.5 | 62.3 | 31.4 |
| Hybrid ANN-SNN | 85.2 | 54.1 | 66.7 |
| LEIR | 112.4 | 135.8 | 78.2 |
| ResPose (Ours) | 7.2 | 4.8 | 6.5 |
- FlashMotion 首次提供毫秒级精度的人体运动数据集,具 1000 Hz 的 2D 标签与 60 Hz 的 3D SMPL 标签,数据来自 20 名志愿者,覆盖 4 个场景
- 完整标注流水线在评估序列上的精度达 99.99%,召回率达 98.82%
- ResPose 相较 RGB 插值基线将平均姿态误差降低约 40%
- PMT 结果显示 ResPose 实现单位毫秒级时间误差(如踢击 7.2 ms、拳击 4.8 ms、跳跃 6.5 ms)
- ResPose(本研究)在高时域分辨率 HPE 任务中取得最佳性能,MPJPE 5.66、PCK0.3 0.97、PCK0.5 0.99(在所报告的评测中)
- 1000 Hz 地真标注凸显了现有低帧率 HPE 方法在毫秒级分析方面的局限性
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。