QUICK REVIEW

[논문 리뷰] Video Based Reconstruction of 3D People Models

Thiemo Alldieck, Marcus Magnor|arXiv (Cornell University)|2018. 03. 13.

3D Shape Modeling and Analysis참고 문헌 73인용 수 26

한 줄 요약

이 논문은 움직이는 사람의 단일 단일 RGB 비디오에서 옷, 머리카락, 질감을 포함한 세밀하고 개인화된 3D 인간 신체 모델을 복원하는 새로운 방법을 제시한다. 동적 실루엣 레이를 캐논리컬 T자세 프레임으로 펴내고 이를 융합하여 공통된 시각 헬름을 생성함으로써, 4.5mm의 복원 정확도를 달성하는 정확한 단일 모델 최적화를 가능하게 한다. 이는 전용 하드웨어 없이도 애니메이션 가능한 질감이 부여된 아바타를 생성할 수 있도록 한다.

ABSTRACT

This paper describes how to obtain accurate 3D body models and texture of arbitrary people from a single, monocular video in which a person is moving. Based on a parametric body model, we present a robust processing pipeline achieving 3D model fits with 5mm accuracy also for clothed people. Our main contribution is a method to nonrigidly deform the silhouette cones corresponding to the dynamic human silhouettes, resulting in a visual hull in a common reference frame that enables surface reconstruction. This enables efficient estimation of a consensus 3D shape, texture and implanted animation skeleton based on a large number of frames. We present evaluation results for a number of test subjects and analyze overall performance. Requiring only a smartphone or webcam, our method enables everyone to create their own fully animatable digital double, e.g., for social VR applications or virtual try-on for online fashion shopping.

연구 동기 및 목표

단일 렌즈 RGB 비디오에서 옷과 머리카락을 포함한 전체 신체 형태의 정확한 3D 복원을 가능하게 하기 위해.
3D 인간 복원에서 단일 렌즈 깊이 모호성과 동적 운동의 한계를 극복하기 위해.
VR, 가상 피팅, 생체 인식에 적합한 뼈대와 질감이 내장된 완전히 애니메이션 가능한 3D 모델을 생성하기 위해.
동적 실루엣을 공통 캐논리컬 프레임으로 변환하여 시각 헬름 방법을 단일 렌즈 비디오로 일반화하기 위해.
다중 시점 카메라, 깊이 센서, 사전 스캔 템플릿 없이도 높은 기하학적 정밀도를 달성하기 위해.

제안 방법

이 방법은 기초로 SMPL 매개변수 기반 신체 모델을 사용하고, 자유형 정점 이동을 추가하여 옷과 신체 기하학을 세밀하게 포착한다.
각 프레임에서 2D 키포인트 검출에 SMPL을 피팅함으로써 2D 자세와 형태를 추정하여 이미지 실루엣과 3D 모델 점 간의 대응 관계를 확립한다.
각 실루엣 레이가 해당 3D 점의 역변형 모델을 통해 변환되며, 이를 '언포지션(ungrouping)'이라 부른다. 이 과정을 통해 동적 실루엣을 캐논리컬 T자세 기준 프레임으로 정렬한다.
모든 프레임의 언포지션된 레이를 융합하여 공통된 시각 헬름을 생성하며, 이는 캐논리컬 공간 내에서 3D 형태를 제약한다.
공동 최적화를 통해 3D 모델 정점과 언포지션된 레이 간의 거리를 최소화함으로써, 메모리에 단일 모델만 유지하면서도 형태 파라미터와 이격 필드를 효율적으로 개선한다.
최종 모델은 뼈대가 부착된 형태와 질감을 포함하여 자세 기반 스키닝과 애니메이션을 가능하게 한다.

실험 결과

연구 질문

RQ1사전 스캔이나 깊이 센서 없이 단일 렌즈 RGB 비디오에서 옷과 머리카락을 포함한 정확한 3D 인간 신체 모델을 복원할 수 있는가?
RQ2움직이는 인간 실루엣을 어떻게 공통 기준 프레임으로 변환하여 시각 헬름 융합을 가능하게 할 수 있는가?
RQ3매개변수 기반의 신체 모델과 이격 필드를 사용할 때, 오직 RGB 비디오로는 어느 정도의 기하학적 정확도를 달성할 수 있는가?
RQ4실제 비디오 시퀀스에서 노이즈가 많은 3D 자세 추정에 대해 이 방법은 얼마나 강건한가?
RQ5복원된 모델은 가상 피팅이나 VR와 같은 응용 분야에서 현실적인 애니메이션과 정확한 이미지 정렬을 지원할 수 있는가?

주요 결과

실제 데이터셋에서 단일 렌즈 깊이 모호성에도 불구하고 평균 복원 정확도가 4.5mm에 도달한다.
정답 자세가 제공된 경우 복원 정확도는 3.1mm로 향상되어 높은 기하학적 정밀도를 입증한다.
실루엣 제약 조건만으로도 옷 주름과 신체 윤곽을 포함한 세밀한 표면 기하학을 성공적으로 복원한다.
입력 이미지와 정확히 일치하는 복원 모델을 확보하였으며, 원본 프레임에 재자세 조정된 모델을 겹쳐보여 거의 완벽한 실루엣 일치를 보였다.
깊이 기반 접근 방식인 KinectCap에 비해 단일 렌즈 복원의 불안정한 성질에 대해 더 강건한 성능을 보이며, 오직 RGB 입력만을 사용함에도 불구하고 슈퍼어리어를 넘어서는 성능을 달성한다.
형상-조명 기반 표면 정밀화를 통해 주름과 천 주름 같은 미세한 디테일이 향상되어, 초기 모델-이미지 정렬의 정확성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.