QUICK REVIEW

[논문 리뷰] Neural Human Video Rendering by Learning Dynamic Textures and Rendering-to-Video Translation

Lingjie Liu, Weipeng Xu|arXiv (Cornell University)|2020. 01. 14.

Advanced Vision and Imaging참고 문헌 90인용 수 49

한 줄 요약

세 단계로 구성된 신경 파이프라인이 텍스처 공간의 포즈 의존적 미세 스케일 디테일을 2D 화면 공간 임베딩에서 분리하여 시간적으로 일관되고 고충실도의 인간 비디오를 합성합니다. TexNet을 사용해 UV 공간에서 다이내믹 텍스처를 생성하고 RefNet으로 최종 비디오를 렌더링 및 정제합니다.

ABSTRACT

Synthesizing realistic videos of humans using neural networks has been a popular alternative to the conventional graphics-based rendering pipeline due to its high efficiency. Existing works typically formulate this as an image-to-image translation problem in 2D screen space, which leads to artifacts such as over-smoothing, missing body parts, and temporal instability of fine-scale detail, such as pose-dependent wrinkles in the clothing. In this paper, we propose a novel human video synthesis method that approaches these limiting factors by explicitly disentangling the learning of time-coherent fine-scale details from the embedding of the human in 2D screen space. More specifically, our method relies on the combination of two convolutional neural networks (CNNs). Given the pose information, the first CNN predicts a dynamic texture map that contains time-coherent high-frequency details, and the second CNN conditions the generation of the final video on the temporally coherent output of the first CNN. We demonstrate several applications of our approach, such as human reenactment and novel view synthesis from monocular video, where we show significant improvement over the state of the art both qualitatively and quantitatively.

연구 동기 및 목표

2D 이미지 변환의 과다 매끄러움(over-smoothing)과 시간적 불안정성과 같은 문제를 넘어 신경망 인간 비디오 합성의 현실감을 향상시키려는 동기를 제시한다.
텍스처 공간 학습을 활용하여 2D 포즈 임베딩에서 시간적으로 일관된 미세 세부 정보를 분리한다.
TexNet과 RefNet이라는 두 네트워크 시스템을 개발하여 다이내믹 텍스처를 생성하고 렌더링된 출력을 정제한다.
모노큘러 비디오에서 모션 전송, 인터랙티브 재연, 신규 시점 합성 등 응용을 가능하게 한다.
의상과 신체 외형의 공간적, 시간적 및 기하학적 일관성을 보존하는 파이프라인을 제공한다.

제안 방법

텍스처 공간 학습과 이미지 공간 정제를 결합한 3단계 파이프라인.
TexNet은 UV 공간에서 포즈 의존적이고 시간-일관된 고주파 텍스처 디테일을 학습한다.
부분 다이내믹 텍스처는 퍼포먼스 캡처 메시를 사용하여 모노큘러 비디오 프레임에서 역투영(back-projected)된다.
두 번째 네트워크가 텍스처가 적용된 메시를 완성하고 렌더링하여 일관된 텍스처 공간 합성을 생성한다.
RefNet은 렌더링된 텍스처 기반 메시 출력의 정제를 통해 그림자 및 전경-배경 상호 작용을 포함한 최종 포토리얼리스틱 비디오를 생성한다.
학습은 프레임 및 비디오 손실과 흐름 일관성을 포함한 cGAN 기반 목표를 사용한다.

실험 결과

연구 질문

RQ1텍스처 공간의 다이나믹스를 화면 공간 임베딩으로부터 분리하는 것이 신경망 인간 비디오 합성에서 시간적 일관성과 디테일을 향상시킬 수 있는가?
RQ2UV 공간에서의 다이내믹 텍스처를 단일 카메라 데이터에서 어떻게 학습하고 포즈 주도 렌더링에 적용할 수 있는가?
RQ3TexNet+RefNet의 이중 네트워크 정제가 모션 전송 및 신규 시점 합성에서 이전의 2D 이미지-투-이미지 변환 접근법보다 우수한가?
RQ4부분 법선 맵을 포즈 인코딩으로 사용할 때 텍스처 합성의 품질과 안정성에 미치는 영향은 무엇인가?

주요 결과

3단계 접근법은 의상과 함께 움직이는 주름과 같은 시간적으로 일관된 고주파 디테일을 생성한다.
TexNet은 UV 공간에서 포즈 의존 텍스처를 생성하여 프레임별 3D 재합성 없이도 정확한 디테일을 가능하게 한다.
RefNet은 전경/배경을 효과적으로 혼합하고 그림자를 포착하며 기하학적 오차를 보정하여 현실감을 향상시킨다.
이 방법은 모션 전송, 인터랙티브 재연, 단일 카메라 신규 시점 합성을 가능하게 하며 최첨단 방법보다 질적/양적 결과가 개선되었다.
텍스처 공간 학습은 이전 프레임 수준의 이미지 변환에서 흔히 발생하는 팔다리 누락이나 실루엣 오류와 같은 2D 합성의 아티팩트를 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.