Skip to main content
QUICK REVIEW

[논문 리뷰] FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision

Zekai Wu, Shuqi Fan|arXiv (Cornell University)|2026. 03. 20.
Human Pose and Action Recognition인용 수 0
한 줄 요약

FlashCap은 이벤트 LED를 사용하는 모캡 시스템으로 1000 Hz 지상참 라벨과 밀리초 모션 타이밍을 달성하고 FlashMotion 데이터셋과 ResPose 베이스라인을 제시합니다.

ABSTRACT

Precise motion timing (PMT) is crucial for swift motion analysis. A millisecond difference may determine victory or defeat in sports competitions. Despite substantial progress in human pose estimation (HPE), PMT remains largely overlooked by the HPE community due to the limited availability of high-temporal-resolution labeled datasets. Today, PMT is achieved using high-speed RGB cameras in specialized scenarios such as the Olympic Games; however, their high costs, light sensitivity, bandwidth, and computational complexity limit their feasibility for daily use. We developed FlashCap, the first flashing LED-based MoCap system for PMT. With FlashCap, we collect a millisecond-resolution human motion dataset, FlashMotion, comprising the event, RGB, LiDAR, and IMU modalities, and demonstrate its high quality through rigorous validation. To evaluate the merits of FlashMotion, we perform two tasks: precise motion timing and high-temporal-resolution HPE. For these tasks, we propose ResPose, a simple yet effective baseline that learns residual poses based on events and RGBs. Experimental results show that ResPose reduces pose estimation errors by ~40% and achieves millisecond-level timing accuracy, enabling new research opportunities. The dataset and code will be shared with the community.

연구 동기 및 목표

  • 스포츠 및 관련 분야에서 빠른 모션 분석에 있어 정밀 모션 타이밍(PMT)을 중요한 목표로 삼습니다.
  • 인간 자세 추정(HPE)을 위한 밀리초 해상도 표본 데이터의 부족을 극복합니다.
  • 휴대 가능한 플래싱 LED 모캡 시스템과 고 시간 해상도 데이터 주석 파이프라인을 제안합니다.
  • 다중 모달 데이터와 높은 품질의 라벨을 포함하는 1000 Hz 지상참 데이터셋인 FlashMotion을 만듭니다.
  • 고주파 이벤트 데이터를 활용해 HPE를 밀리초 규모로 향상시키는 강력한 베이스라인으로 ResPose를 소개합니다.

제안 방법

  • 신체에 부착되는 17개의 LED와 17개의 IMU를 갖춘 FlashCap 모캡 의상을 설계합니다.
  • RGB 카메라와 이벤트 카메라(선택적으로 LiDAR/IMU 포함)로 구성된 다중 모달 포착 장치를 사용합니다.
  • LED 유도 이벤트 클러스터를 관절 위치에 매핑하여 1000 Hz 지상참 라벨을 생성하는 데이터 주석 파이프라인을 개발합니다.
  • 저속 RGB 앵커와 고속 이벤트 기반 잔여를 융합해 1000 Hz 자세 추정을 제공하는 두 분기 프레임워크인 ResPose를 제안합니다.
  • ResPose에서 로컬 이벤트 패치에 대한 SNN-CNN 인코더로 미세 움직임을 추출하고 멀티모달 변환기 잔여 회귀를 통해 RGB 앵커와 융합하며, 골격 인식 자기 주의에 의해 안내됩니다.
  • FlashMotion 데이터셋에서 방법을 시演하고 PMT 및 고시간 해상도 HPE 작업을 벤치마크합니다.

실험 결과

연구 질문

  • RQ1현실 세계 조건에서 플래싱 LED와 이벤트 스트림으로 1000 Hz 지상참 포즈 라벨을 신뢰성 있게 생성할 수 있는가?
  • RQ2RGB 앵커 위의 고시간 해상도 잔여가 RGB 전용 또는 이벤트 전용 베이스라인과 비교해 밀리초 규모의 포즈 추정에 도움이 되는가?
  • RQ3FlashMotion 데이터셋은 PMT와 고시간 해상도 HPE 벤치마킹을 얼마나 잘 지원하는가?
  • RQ4다양한 모션과 조건에서 주석 주입 파이프라인의 엔드투엔드 라벨 정확도와 재현율은 어느 정도인가?

주요 결과

방법Kicking (ms)Punching (ms)Jumping (ms)
ViTPose48.562.331.4
Hybrid ANN-SNN85.254.166.7
LEIR112.4135.878.2
ResPose (Ours)7.24.86.5
  • FlashMotion은 1000 Hz 2D 라벨과 60 Hz 3D SMPL 라벨을 갖춘 최초의 밀리초 정확도 인간 모션 데이터셋으로, 4개 장면에서 20명의 자원봉사자로 수집되었습니다.
  • 전체 주석 파이프라인은 평가된 시퀀스에서 99.99% 정밀도와 98.82% 재현율을 달성합니다.
  • ResPose는 RGB 보간 베이스라인에 비해 평균 자세 오차를 약 40% 감소시킵니다.
  • PMT 결과에서 ResPose는 싱글-digit 밀리초 타이밍 오차를 달성합니다(예: Kicking 7.2 ms, Punching 4.8 ms, Jumping 6.5 ms).
  • ResPose(Ours)는 보고된 평가에서 MPJPE 5.66, PCK0.3 0.97, PCK0.5 0.99로 고시간 해상도 HPE 작업에서 최상의 성능을 달성합니다.
  • 1000 Hz 지상참 라벨링은 기존 저프레임-레이트 HPE 방법의 밀리초 정확한 분석의 한계를 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.