[논문 리뷰] RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB Video
RGB2Hands는 멀티태스크 CNN과 생성적 손 모델 피팅 프레임워크를 사용하여 단일 RGB 카메라로 두 개의 상호 작용하는 손의 3D 포즈와 표면 기하를 실시간으로 추적하고 재구성하는 방법을 제시한다. 깊이 센서 없이 깊이 불확실성과 가려짐을 처리한다.
Tracking and reconstructing the 3D pose and geometry of two hands in interaction is a challenging problem that has a high relevance for several human-computer interaction applications, including AR/VR, robotics, or sign language recognition. Existing works are either limited to simpler tracking settings (e.g., considering only a single hand or two spatially separated hands), or rely on less ubiquitous sensors, such as depth cameras. In contrast, in this work we present the first real-time method for motion capture of skeletal pose and 3D surface geometry of hands from a single RGB camera that explicitly considers close interactions. In order to address the inherent depth ambiguities in RGB data, we propose a novel multi-task CNN that regresses multiple complementary pieces of information, including segmentation, dense matchings to a 3D hand model, and 2D keypoint positions, together with newly proposed intra-hand relative depth and inter-hand distance maps. These predictions are subsequently used in a generative model fitting framework in order to estimate pose and shape parameters of a 3D hand model for both hands. We experimentally verify the individual components of our RGB two-hand tracking and 3D reconstruction pipeline through an extensive ablation study. Moreover, we demonstrate that our approach offers previously unseen two-hand tracking performance from RGB, and quantitatively and qualitatively outperforms existing RGB-based methods that were not explicitly designed for two-hand interactions. Moreover, our method even performs on-par with depth-based real-time methods.
연구 동기 및 목표
- 마커 없이 모노큘러 RGB 입력만으로 두 개의 밀접하게 상호 작용하는 손의 3D 움직임 추적을 해결하는 도전 과제를 다룬다.
- 두 손의 전역 3D 포즈와 손 모양을 모두 추정하는 강력하고 실시간 파이프라인을 개발한다.
- RGB 데이터에서 두 손 상호 작용 중 깊이 불확실성과 가려짐을 명시적으로 처리한다.
- MANO 기반 합성 파이프라인으로 구동되는 두 손 RGB 재구성을 가능하게 하는 학습 데이터와 벤치마크(RGB2Hands)를 만든다.
제안 방법
- 각 픽셀에 좌측/우측 손 분할, 3D 손 모델에 대한 조밀한 정점-영상 매칭, 손 내 깊이 맵, 손 간 거리, 그리고 가려짐에 강인한 2D 키포인트를 예측하는 다중 작업 CNN을 제안한다.
- 두 손에 대해 복합 에너지 f(β,θ) = Φ(β,θ) + Ω(β,θ)를 최소화하여 매개 변수화된 3D 손 모델(MANO)을 피팅한다.
- Φ는 RGB 데이터에 모델을 정렬하기 위해 조밀한 2D 피팅, 실루엣, 2D 키포인트, 손 내 깊이, 손 간 거리 항을 결합한다.
- RGB 중 두 손 상호 작용 중 깊이 불확실성을 해결하기 위해 손 내부 상대 깊이 및 손 간 거리 항을 도입한다.
- GPU 가속된 야코비안 평가를 갖춘 Levenberg–Marquardt 최적화를 사용하여 실시간 피팅을 달성한다(최대 10 LM 반복).
- 다양한 모양의 실제(RGB-D) 데이터와 물리적으로 시뮬레이션된 합성 데이터를 혼합한 데이터 세트에서 MANO 기반 합성 파이프라인으로 구동되는 상호 작용하는 손을 모델링하여 학습한다.
실험 결과
연구 질문
- RQ1단일 RGB 파이프라인이 두 개의 밀접하게 상호 작용하는 손의 3D 포즈와 표면 기하를 실시간으로 정확하게 재구성할 수 있는가?
- RQ2접촉 또는 근접 접촉 시나리오에서 RGB의 깊이 불확실성을 어떻게 완화할 수 있는가?
- RQ3분할, 조밀한 매칭, 깊이 인식 및 키포인트를 예측하는 다중 작업 CNN이 두 손 모델 피팅에 강건한 타깃을 제공하는가?
- RQ4RGB2Hands는 깊이 기반 방법 및 두 손 상호 작용에 맞게 설계되지 않은 RGB 방법에 비해 어떻게 성능을 발휘하는가?
주요 결과
- 단일 카메라 RGB에서 두 상호 작용 손의 3D 포즈와 모양을 실시간으로 재구성한다.
- 분할, 조밀한 표면 매칭, 손 내 깊이, 손 간 거리, 및 2D 키포인트를 예측하는 다중 작업 CNN이 피팅 단계에서 두 손의 연결성을 강건하게 만든다.
- 다섯 개의 이미지 피팅 항(조밀, 실루엣, 키포인트, 손 내 깊이, 손 간 거리)으로 구성된 새로운 에너지 형식은 RGB 데이터로부터 일관된 3D 피팅을 가능하게 한다.
- 물리적으로 정확한 손 짝 시뮬레이터를 활용한 합성+실제 학습 방식은 두 손의 현실적인 포즈로의 최적화를 향상시킨다.
- RGB2Hands는 두 손 상호 작용용으로 설계되지 않은 RGB 기반 방법에 비해 substantial한 개선을 보이고, 깊이 기반 실시간 방법과 비교할 만한 성능을 보인다.
- 새로운 RGB2Hands 벤치마크 데이터세트가 3D 평가를 위한 수동 키포인트와 동기화된 깊이를 포함한 실제 두 손 시퀀스를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.