QUICK REVIEW

[논문 리뷰] Capturing and Animation of Body and Clothing from Monocular Video

Feng Yao, Jinlong Yang|arXiv (Cornell University)|2022. 10. 04.

3D Shape Modeling and Analysis인용 수 3

한 줄 요약

SCARF는 메쉬 기반 신체 모델과 옷에 대한 신경 렌디언스 필드(NeRF)를 결합한 하이브리드 3D 아바타 표현 방식을 제안하며, 단일 영상에서 신체와 옷을 분리하여 고해상도 재구성과 애니메이션을 가능하게 한다. 이 방법은 표정 제어, 손 관절 운동, 옷 이식 기능을 갖춘 세밀하고 애니메이션 가능한 아바타를 구현하여 가상 시도 및 VR 응용 분야에서 기존 방법보다 높은 시각적 품질과 유연성을 확보한다.

ABSTRACT

While recent work has shown progress on extracting clothed 3D human avatars from a single image, video, or a set of 3D scans, several limitations remain. Most methods use a holistic representation to jointly model the body and clothing, which means that the clothing and body cannot be separated for applications like virtual try-on. Other methods separately model the body and clothing, but they require training from a large set of 3D clothed human meshes obtained from 3D/4D scanners or physics simulations. Our insight is that the body and clothing have different modeling requirements. While the body is well represented by a mesh-based parametric 3D model, implicit representations and neural radiance fields are better suited to capturing the large variety in shape and appearance present in clothing. Building on this insight, we propose SCARF (Segmented Clothed Avatar Radiance Field), a hybrid model combining a mesh-based body with a neural radiance field. Integrating the mesh into the volumetric rendering in combination with a differentiable rasterizer enables us to optimize SCARF directly from monocular videos, without any 3D supervision. The hybrid modeling enables SCARF to (i) animate the clothed body avatar by changing body poses (including hand articulation and facial expressions), (ii) synthesize novel views of the avatar, and (iii) transfer clothing between avatars in virtual try-on applications. We demonstrate that SCARF reconstructs clothing with higher visual quality than existing methods, that the clothing deforms with changing body pose and body shape, and that clothing can be successfully transferred between avatars of different subjects. The code and models are available at https://github.com/YadiraF/SCARF.

연구 동기 및 목표

가상 시도와 같은 응용 분야를 방해하는 통합 표현 방식의 한계를 해결하기 위해 신체와 옷을 동시에 모델링하는 데 초점을 맞춘다.
대규모 3D 스캔 데이터셋이 필요 없도록 단일 영상에서 3D 감독 없이 엔드 투 엔드 최적화를 가능하게 하여 이를 극복한다.
신체 자세, 표정, 손 관절 운동, 옷 외관에 대해 별도 제어가 가능한 세밀하고 애니메이션 가능한 아바타를 구현한다.
기하학적 일관성을 유지하면서 옷의 변형과 새로운 시점 합성에서 고해상도의 시각적 정확도를 달성한다.
다른 주제의 아바타 간에 옷을 성공적으로 이식하여 실용적인 가상 시도 응용을 가능하게 한다.

제안 방법

자세 및 형태 파라미터를 갖춘 파arametric 메쉬 기반 신체 모델(SMPL-X 등)을 사용해 기저 인간 신체를 표현한다.
다양한 자세에서 형태, 색상, 외관을 암묵적으로 표현하는 신경 렌디언스 필드(NeRF)를 사용해 옷을 모델링한다.
차별 가능한 래스터라이저를 통해 메쉬를 체적 렌더링 파이프라인에 통합하여 단일 영상에서 엔드 투 엔드 최적화를 가능하게 한다.
자세 조건에 따라 변형되는 모델을 적용해 자세 변화 시 실제적인 옷의 역학을 시뮬레이션한다.
시간적 일관성과 광학 흐름을 활용해 훈련 중 신체-옷 분할을 향상시킨다.
영상 프레임 간의 사진학적 손실과 기하학적 손실을 최소화하는 차별 가능한 렌더링 목적함수를 사용해 하이브리드 모델을 최적화한다.

실험 결과

연구 질문

RQ1메쉬 기반 신체와 옷에 대한 신경 렌디언스 필드를 조합한 하이브리드 표현 방식이 단일 영상에서 고해상도이고 분리된 3D 아바타 재구성을 가능하게 하는가?
RQ2이러한 모델이 표정 애니메이션, 손 관절 운동, 신체 자세 변화를 세밀하게 애니메이션하면서도 옷의 현실감을 유지할 수 있는가?
RQ3이 분리된 표현 방식을 통해 다른 주제의 아바타 간에 옷을 성공적으로 이식할 수 있는가?
RQ4이 방법은 3D 감독 없이도 예측되지 않은 자세와 새로운 시점 방향으로 일반화되는가?
RQ5시각적 품질과 기하학적 정확도 측면에서 이 하이브리드 모델은 통합 NeRF 또는 메쉬 전용 기준 모델보다 어떻게 비교되는가?

주요 결과

SCARF는 기존 방법 대비 복잡한 의복(예: 느슨한 드레스, 다중 층의 의복)에 대해 뛰어난 시각적 품질의 옷 재구성을 달성한다.
PIXIE에서 추출한 자세 추정을 활용해 표정 애니메이션과 손 관절 운동을 성공적으로 애니메이션하여 표현력 있는 아바타 제어를 가능하게 한다.
다른 신체 형태와 자세를 가진 아바타 간에 높은 정확도로 옷을 이식하여 실용적인 가상 시도 응용을 실현한다.
모델은 새로운 자세와 시점으로 일반화되어 보다 복잡한 카메라 각도에서 최소한의 잡음으로 현실적인 이미지를 합성한다.
절단 실험 결과, 하이브리드 메쉬-NeRF 표현 방식이 얼굴, 손, 복잡한 의복 재구성에서 통합 NeRF 및 메쉬 전용 기준 모델보다 뛰어난 성능을 보임을 확인한다.
차별 가능한 렌더링 파이프라인 덕분에 3D 진짜 데이터나 대규모 3D 스캔이 필요 없이 단일 영상에서 엔드 투 엔드 최적화가 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.