[논문 리뷰] Hand3D: Hand Pose Estimation using 3D Neural Network
본 논문은 depth 이미지의 TSDF 부피 표현에서 직접 3D 손 관절 위치를 추정하는 3D CNN을 제안하며, 합성 데이터 증강과 TSDF 정제 모듈을 포함하여 NYU와 ICVL 손 관절 포즈 데이터셋에서 최첨단 성능을 달성한다.
We propose a novel 3D neural network architecture for 3D hand pose estimation from a single depth image. Different from previous works that mostly run on 2D depth image domain and require intermediate or post process to bring in the supervision from 3D space, we convert the depth map to a 3D volumetric representation, and feed it into a 3D convolutional neural network(CNN) to directly produce the pose in 3D requiring no further process. Our system does not require the ground truth reference point for initialization, and our network architecture naturally integrates both local feature and global context in 3D space. To increase the coverage of the hand pose space of the training data, we render synthetic depth image by transferring hand pose from existing real image datasets. We evaluation our algorithm on two public benchmarks and achieve the state-of-the-art performance. The synthetic hand pose dataset will be available.
연구 동기 및 목표
- 후처리나 사전에 정의된 모델 없이 단일 깊이 이미지에서 직접 3D 손 포즈 추정을 촉진한다.
- 3D 체적 표현(TSDF)과 COM 좌표로 3D 관절 위치를 예측하는 3D CNN을 제안한다.
- TSDF 정제와 가변 뼈 길이를 갖는 합성 데이터 증강을 통해 학습 데이터 다양성과 깊이 품질을 향상시킨다.
- NYU 및 ICVL 손 포즈 벤치마크에서 최첨단 성능을 시연한다.
제안 방법
- 깊이 맵을 손의 COM에 정렬된 60x60x60 TSDF 부피로 변환한다.
- 손실된 깊이를 보완하고 아티팩트를 줄이는 3D FCN으로 원시 TSDF를 정제한다.
- COM에 상대적인 3D 관절 위치를 L2 손실로 직접 회귀하기 위해 3D ConvNet을 사용한다.
- 변동 뼈 길이를 갖는 합성 포즈를 포함한 증강 데이터를 사용하여 네트워크를 엔드-투-엔드로 학습시킨다.
- 구성 가능한 CAD 모델에 손 포즈를 전이하고 깊이 이미지를 렌더링하여 데이터 증강을 수행한다.
- 실제 데이터에서 역운동학으로 포즈를 회복하고 합성 데이터 생성을 위해 BVH로 전송하는 것을 선택적으로 수행한다.
실험 결과
연구 질문
- RQ1TSDF 볼륨에서 작동하는 3D CNN이 후처리 없이 COM 좌표로 3D 손 관절 위치를 직접 추정할 수 있는가?
- RQ2TSDF 정제와 3D 데이터 증강이 표준 벤치마크에서 3D 손 포즈 정확도를 향상시키는가?
- RQ3본 방법은 서로 다른 손 골격 및 뼈 길이에 얼마나 잘 일반화되는가?
- RQ4제안된 합성 데이터 증강과 뼈 길이 변화가 포즈 추정에 미치는 성능 영향은 무엇인가?
주요 결과
- 본 방법은 NYU 및 ICVL 손 포즈 데이터세트에서 최첨단 성능을 달성한다.
- COM 좌표에서의 직접 3D 포즈 추정은 2D 추정치를 3D로 프로젝션하기 위한 후처리의 필요성을 없앤다.
- TSDF 정제는 특히 낮은 오차 임계값에서 자세 정확도를 향상시킨다.
- 가변 뼈 길이 및 합성 포즈 전이를 통한 데이터 증강이 성능을 크게 향상시킨다.
- 이 방법은 GTX TITAN X에서 약 30 FPS로 실행되며, 여러 모델 기반 방법보다 빠르면서 더 높은 정확도를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.