QUICK REVIEW

[논문 리뷰] Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Donglai Xiang, Hanbyul Joo|arXiv (Cornell University)|2018. 12. 04.

Human Pose and Action Recognition참고 문헌 56인용 수 25

한 줄 요약

이 논문은 3D 기울기 변형 인간 모델과 새로운 3D 파트 방향 필드(POFs) 표현을 사용하여 단일 영상에서 야외 환경에서 얼굴, 몸통, 손의 전체 3D 운동 캡처를 위한 최초의 단안 방법을 제안한다. 통합 최적화 프레임워크를 통해 상태 기반 성능을 달성하며, 텍스처 기반 추적을 통해 영상에서 시간적으로 일관된 재구성을 가능하게 한다.

ABSTRACT

We present the first method to capture the 3D total motion of a target person from a monocular view input. Given an image or a monocular video, our method reconstructs the motion from body, face, and fingers represented by a 3D deformable mesh model. We use an efficient representation called 3D Part Orientation Fields (POFs), to encode the 3D orientations of all body parts in the common 2D image space. POFs are predicted by a Fully Convolutional Network (FCN), along with the joint confidence maps. To train our network, we collect a new 3D human motion dataset capturing diverse total body motion of 40 subjects in a multiview system. We leverage a 3D deformable human model to reconstruct total body pose from the CNN outputs by exploiting the pose and shape prior in the model. We also present a texture-based tracking method to obtain temporally coherent motion capture output. We perform thorough quantitative evaluations including comparison with the existing body-specific and hand-specific methods, and performance analysis on camera viewpoint and human pose changes. Finally, we demonstrate the results of our total body motion capture on various challenging in-the-wild videos. Our code and newly collected human motion dataset will be publicly shared.

연구 동기 및 목표

제약 없는 환경에서 단일 단안 영상 또는 영상에서 얼굴, 몸통, 손의 엔드 투 엔드 전체 3D 운동 캡처를 가능하게 하기.
기울기 변형 인간 모델에서 유도된 강력한 3D 형태 및 운동 사전 지식을 활용하여 단안 3D 자세 추정에서의 근본적인 깊이 모호성 문제를 해결하기.
단일 시각 입력을 사용하여 몸통, 얼굴, 손의 3D 자세를 동시에 추정하는 통합 프레임워크 개발하기.
텍스처 공간에서의 광학 일致성 최적화를 통해 영상 시퀀스에서의 시간적 일관성 향상하기.
훈련 및 평가를 위한 다양한 전체 몸통, 손, 얼굴 운동을 포함한 새로운 대규모 3D 인간 운동 데이터셋 수집 및 배포하기.

제안 방법

3D 파트 방향 필드(POFs)를 사용하여 몸통 부위(예: 사지, 손가락)의 3D 방향을 2D 영상 공간에 인코딩하여 단일 시각에서 효율적인 3D 자세 회귀를 가능하게 한다.
완전 컨volution 네트워크(FCN)가 입력 영상에서 POFs와 2D 관절 신뢰도 맵을 예측하며, 몸통, 손, 얼굴에 대해 별도의 네트워크를 사용한다.
통합 최적화 프레임워크를 통해 CNN 출력에 3D 기울기 변형 인간 모델을 피팅하여 모든 몸통 부위 간 기하학적 및 운동학적 일致성 강제 적용하기.
영상 간 시간적 보정을 위해 3D 메쉬 표현을 활용하여 텍스처 공간에서의 광학 오차를 최소화함으로써 운동 추정을 개선하고 시간적 일관성 향상하기.
3D 모델에서 유도된 형태 및 운동 사전 지식을 통합하여 예측의 안정성을 높이고 깊이 모호성 및 자기 음영 상황에서의 오류 감소하기.
다양한 자세와 시점에서 모델을 훈련 및 평가하기 위해 40명의 주제를 포함한 새로운 다중 시점 3D 인간 운동 데이터셋을 수집하였다.

실험 결과

연구 질문

RQ1단일 단안 입력을 통해 제약 없는 야외 환경에서 얼굴, 몸통, 손의 3D 전체 운동을 동시에 정확하게 재구성할 수 있는가?
RQ2기존의 2D 히트맵 기반 방법과 비교할 때 제안된 3D 파트 방향 필드(POFs) 표현이 3D 자세 정확도 및 강인성 측면에서 얼마나 우수한가?
RQ33D 기울기 변형 인간 모델의 통합이 깊이 모호성 및 자기 음영 상황에서 자세 추정 성능을 얼마나 향상시키는가?
RQ4텍스처 기반 추적 방법이 영상 시퀀스에서 운동 진동을 줄이고 시간적 일관성을 확보하는 데 얼마나 효과적인가?
RQ5특히 심한 음영 또는 축소 효과가 발생하는 상황에서, 다양한 카메라 시점과 복잡한 몸통 자세에 대해 이 방법의 일반화 능력은 어떠한가?

주요 결과

더 현실적인 깊이 정렬 평가 설정 하에서 3D 손 자세 벤치마크에서 AUC 0.84를 기록하여 기존 최상의 방법(AUC=0.70)을 초월하고 일부 RGB-D 방법(AUC=0.81)을 뛰어넘었다.
3D 몸통 자세 벤치마크에서 깊이 정렬 후 평균 MPJPE는 6.30 cm를 기록했으며, 자기 음영 및 축소 효과로 인해 뒷면 및 고각도 시점에서 오차가 더 높게 관측되었다.
유튜브에서 확보한 야외 영상에서의 성능이 뛰어나, 다양한 실제 환경(복잡한 배경, 조명 조건 포함)에서도 3D 운동 재구성에 성공했다.
광학 일치성 최적화를 통한 시간적 보정은 운동의 매끄러움을 크게 향상시켰으며, 추적되지 않은 결과 대비 재구성된 어깨 궤적에서 관절 진동 감소가 뚜렷하게 관측되었다.
자기 음영 또는 사지의 심한 축소 효과가 있는 자세에서 오차가 더 높게 관측되었으며, 클러스터 기반 오차 분석을 통해 이는 확인되었다.
40명의 주제를 포함한 새로 수집된 3D 인간 운동 데이터셋은 향후 단안 전체 운동 캡처 연구를 위한 유의미한 벤치마크를 제공하며, 다양한 얼굴, 몸통, 손의 운동을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.