QUICK REVIEW

[논문 리뷰] MonoPerfCap: Human Performance Capture from Monocular Video

Weipeng Xu, Avishek Chatterjee|arXiv (Cornell University)|2017. 08. 07.

Human Pose and Action Recognition참고 문헌 80인용 수 42

한 줄 요약

MonoPerfCap는 단일 RGB 비디오에서 뼈대 없는, 단일 카메라 기반의 시간적으로 일관된 3D 인간 성능 캡처를 위한 최초의 방법을 제안한다. 희소 2D/3D 자세 검출과 저차원 궤적 부분공간, 실루엣 기반 표면 정밀화를 결합하여 관절 운동과 중간 규모 비정질 변형을 상태 최고 수준의 정확도로 재구성한다.

ABSTRACT

We present the first marker-less approach for temporally coherent 3D performance capture of a human with general clothing from monocular video. Our approach reconstructs articulated human skeleton motion as well as medium-scale non-rigid surface deformations in general scenes. Human performance capture is a challenging problem due to the large range of articulation, potentially fast motion, and considerable non-rigid deformations, even from multi-view data. Reconstruction from monocular video alone is drastically more challenging, since strong occlusions and the inherent depth ambiguity lead to a highly ill-posed reconstruction problem. We tackle these challenges by a novel approach that employs sparse 2D and 3D human pose detections from a convolutional neural network using a batch-based pose estimation strategy. Joint recovery of per-batch motion allows to resolve the ambiguities of the monocular reconstruction problem based on a low dimensional trajectory subspace. In addition, we propose refinement of the surface geometry based on fully automatically extracted silhouettes to enable medium-scale non-rigid alignment. We demonstrate state-of-the-art performance capture results that enable exciting applications such as video editing and free viewpoint video, previously infeasible from monocular video. Our qualitative and quantitative evaluation demonstrates that our approach significantly outperforms previous monocular methods in terms of accuracy, robustness and scene complexity that can be handled.

연구 동기 및 목표

깊이의 모호성과 강한 가림을 겪는 단일 RGB 비디오에서 시간적으로 일관된 3D 인간 성능 재구성을 해결한다.
시간적 일관성과 운동 사전 지식을 활용하여 단일 카메라 재구성의 본질적으로 잘못 정의된 문제를 극복한다.
마커나 다중 시점 설정 없이도 정교한 관절 운동과 중간 규모 비정질 표면 변형을 캡처할 수 있도록 한다.
단일 RGB 카메라만을 사용하여 복잡한 환경, 외부 및 일반 배경 설정에서도 견고한 성능 캡처를 실현한다.
이전에는 단일 카메라 입력으로는 불가능했던 자유 시점 비디오 및 비디오 편집 적용 가능성을 입증한다.

제안 방법

비디오 프레임 전역에서 희소 2D 및 3D 인간 관절 위치를 검출하기 위해 컬러리널 신경망(CNN)을 사용하는 배치 기반 자세 추정 전략을 채택한다.
저차원 궤적 부분공간을 사용하여 3D 자세 추정을 정규화하고 단일 카메라 재구성에서 내재된 깊이의 모호성을 해결한다.
2D 관절 검출 결과를 특징점으로 활용하여 3D 스켈레톤을 이미지에 정렬함으로써 가림에 대한 견고성을 향상시킨다.
단일 카메라 이미지에서 직접 3D 관절 위치를 추정하기 위해 두 번째 CNN을 활용하여 관절에서 발생하는 '앞뒤 뒤집힘'의 모호성을 줄인다.
완전 자동으로 추출된 실루엣을 활용하여 표면 기하학을 정밀화함으로써 중간 규모 비정질 변형 정렬을 가능하게 한다.
운동 기반 스켈레톤과 중간 규모 변형장(field)을 갖춘 개인별 템플릿 메esh를 사용하여 변형 표면을 매개변수화하여 정확한 동적 표면 재구성에 기여한다.

실험 결과

연구 질문

RQ1마커나 다중 시점 데이터 없이 단일 카메라 비디오에서 시간적으로 일관된 3D 인간 성능 캡처가 가능할 수 있는가?
RQ2단일 카메라 비디오에서의 깊이 모호성과 강한 가림을 효과적으로 해결하여 정확한 3D 재구성할 수 있는가?
RQ3시간 공간에서의 저차원 운동 사전 지식이 단일 카메라 3D 자세 추정의 견고성과 정확도를 얼마나 향상시킬 수 있는가?
RQ4실루엣 기반 정밀화가 명시적 깊이 또는 다중 시점 입력 없이도 정확한 중간 규모 비정질 표면 변형 복원을 가능하게 할 수 있는가?
RQ5스테레오 기반 및 다중 시점 성능 캡처와 비교해 볼 때, 제안된 방법은 재구성 품질과 시나리오 복잡성 측면에서 어떤가?

주요 결과

MonoPerfCap는 단일 카메라 인간 성능 캡처에서 최신 기술 수준의 성능을 달성하여 이전 방법들에 비해 정확도, 견고성, 시나리오 복잡성 측면에서 뚜렷한 승리를 거두었다.
이 방법은 일반 배경이 있는 복잡한 환경에서도 전체 관절 운동과 중간 규모 비정질 표면 변형을 단일 카메라 비디오에서 성공적으로 재구성하였다.
저차원 궤적 부분공간의 사용은 단일 카메라 재구성에서 깊이의 모호성을 효과적으로 해결하여 3D 자세 추정의 안정성을 향상시켰다.
실루엣 기반 정밀화는 표면 기하학 정확도를 크게 향상시켰으며, 평균 실루엣 겹침 정확도(AO)는 지표와 매우 잘 일치함을 보였다.
이 방법은 이전에는 단일 RGB 비디오 시퀀스로는 불가능했던 자유 시점 비디오 및 비디오 편집 응용을 가능하게 하였다.
발 추적 및 옷의 위상 변화에 대한 제한이 있음에도 불구하고, 견고한 2D 관절 검출 덕분에 가림 상황에서 즉각적으로 복구되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.