Skip to main content
QUICK REVIEW

[논문 리뷰] First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations

Guillermo Garcia-Hernando, Shanxin Yuan|arXiv (Cornell University)|2017. 04. 08.
Hand Gesture Recognition Systems참고 문헌 74인용 수 18
한 줄 요약

이 논문은 RGB-D 영상과 자기자신의 손가락 자세를 측정한 자기장 모션 캡처 시스템을 활용한 새로운 제1인칭 행동 인식 벤치마크를 소개한다. 이는 자기중심적 손-물체 상호작용 연구를 가능하게 한다. 주요 기여는 3D 손가락 자세 특징이 외관 기반 방법에 비해 행동 인식 정확도를 크게 향상시킨다는 것을 입증한 것으로, 정답 자세를 사용할 경우 78.73%의 정확도를 달성하였으며, 특히 가림 상황에서 자세 추정의 정확성이 성능에 결정적인 영향을 미친다는 점을 보여주었다.

ABSTRACT

In this work we study the use of 3D hand poses to recognize first-person dynamic hand actions interacting with 3D objects. Towards this goal, we collected RGB-D video sequences comprised of more than 100K frames of 45 daily hand action categories, involving 26 different objects in several hand configurations. To obtain hand pose annotations, we used our own mo-cap system that automatically infers the 3D location of each of the 21 joints of a hand model via 6 magnetic sensors and inverse kinematics. Additionally, we recorded the 6D object poses and provide 3D object models for a subset of hand-object interaction sequences. To the best of our knowledge, this is the first benchmark that enables the study of first-person hand actions with the use of 3D hand poses. We present an extensive experimental evaluation of RGB-D and pose-based action recognition by 18 baselines/state-of-the-art approaches. The impact of using appearance features, poses, and their combinations are measured, and the different training/testing protocols are evaluated. Finally, we assess how ready the 3D hand pose estimation field is when hands are severely occluded by objects in egocentric views and its influence on action recognition. From the results, we see clear benefits of using hand pose as a cue for action recognition compared to other data modalities. Our dataset and experiments can be of interest to communities of 3D hand pose estimation, 6D object pose, and robotics as well as action recognition.

연구 동기 및 목표

  • 동적 손-물체 상호작용에 대해 정확한 3D 손가락 자세 레이블이 있는 실제 세계적 제1인칭 데이터셋의 부족을 해결하기 위해.
  • 외관 기반 특징과 비교하여 3D 손가락 자세 특징이 제1인칭 행동 인식에 미치는 영향을 평가하기 위해.
  • 최신 손가락 자세 추정기의 성능을 실제 세계적, 가림된 자기중심 시나리오에서 평가하고, 행동 인식에 미치는 영향을 분석하기 위해.
  • 손-물체 자세 동시 추정을 위한 벤치마크를 제공하고, 3D 손가락 자세 추정, 로봇공학, 행동 인식 분야의 연구를 촉진하기 위해.

제안 방법

  • 26개의 물체를 포함한 3개의 시나리오에서 45종의 일상적 손 동작 카테고리에 대해 10만 개 이상의 RGB-D 프레임을 수집하였다.
  • 손가락 끝에 6개의 센서를 부착한 맞춤형 자기장 모션 캡처 시스템과 역기구학을 활용해 21개의 관절에 대한 3D 손가락 자세를 추정하였다.
  • 10개의 동작에서 4개의 물체에 대해 6차원 물체 자세 정답과 3D 메시 모델을 제공하여 손-물체 분석을 지원하였다.
  • 일반화 성능 평가를 위해 교차 주체 및 교차 물체 분할을 포함한 학습 및 테스트 프로토콜을 설계하였다.
  • 여러 데이터 모odal리티와 융합 전략을 사용하여, 이 데이터셋에서 18종의 최신 RGB-D 및 자세 기반 행동 인식 모델을 평가하였다.
  • 추론 과정에서 정답 자세를 추정된 자세로 대체하여 손가락 자세 추정 오차가 행동 인식에 미치는 영향을 정량화하였다.

실험 결과

연구 질문

  • RQ1제1인칭 행동 인식에서 3D 손가락 자세 특징은 RGB-D 외관 특징에 비해 얼마나 효과적인가?
  • RQ2물체에 의한 가림이 자기중심 시각에서 손가락 자세 추정 정확도에 얼마나 큰 영향을 미치는가?
  • RQ3실제 자기중심 시퀀스에서 예측되지 않은 주체와 예측되지 않은 물체에 대해 손가락 자세 추정기의 일반화 능력은 어떻게 변하는가?
  • RQ4행동 인식 과제에서 정답 3D 손가락 자세를 사용할 때와 추정된 자세를 사용할 때의 성능 격차는 어느 정도인가?
  • RQ5순환 신경망에서의 시간적 모델링은 노이즈가 많은 손가락 자세 추정치가 행동 인식에 악영향을 미치는 것을 완화할 수 있는가?

주요 결과

  • 정답 3D 손가락 자세를 사용할 경우 행동 인식 정확도가 78.73%에 도달하였으며, 이는 외관 기반 기준 모델보다 유의미하게 높았다.
  • 손가락 자세 추정 오차를 2배로 줄였을 때 행동 인식 성능이 2배 이상 향상되었다.
  • 물체 없이 학습한 추정 자세를 사용할 경우 정확도가 정답 자세의 78.73%에서 72.06%로 떨어졌으며, 이는 학습에 물체 상호작용 데이터가 필요하다는 것을 시사한다.
  • 손가락 자세 추정 오차는 엄지손가락(12.45 mm)과 검지손가락(15.48 mm)에서 가장 낮았으며, 이들 손가락은 행동 인식에 가장 정보가 많은 것으로 밝혀졌다.
  • LSTM 기반 기준 모델은 시간적 모델링 덕분에 노이즈가 많은 자세 추정치에도 불구하고 안정적인 정확도를 유지하여 뛰어난 내성성을 보였다.
  • 교차 물체 일반화 성능은 교차 주체 일반화 성능보다 유의미하게 열악했으며, 이는 물체의 형태와 잡는 방식이 자세 추정에 결정적인 영향을 미친다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.