QUICK REVIEW

[논문 리뷰] PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D Video Sequence

Zijian Dong, Chen Guo|arXiv (Cornell University)|2022. 01. 01.

Advanced Vision and Imaging인용 수 3

한 줄 요약

PINA는 캐논리컬 스페이스에 정의된 암묵적 서피셜 디스턴스 필드(SDF)와 자세 조건에 따라 변형되는 스킨닝 필드를 사용하여 단일 RGB-D 영상에서 개인화된 가상 애니메이션 가능 신경 애벌러를 학습하는 방법을 제안한다. 노이즈가 많고 부분적인 깊이 관측치에 기반한 전역 최적화를 통해 형태, 자세, 스킨닝 웨이트를 동시에 최적화함으로써 PINA는 높은 정밀도의 재구성과 새로운 자세에 대한 현실적인 변형 일반화를 달성하며, 완전한 스캔이나 사전 지식 없이도 최신 기술을 능가한다.

ABSTRACT

We present a novel method to learn Personalized Implicit Neural Avatars (PINA) from a short RGB-D sequence. This allows non-expert users to create a detailed and personalized virtual copy of themselves, which can be animated with realistic clothing deformations. PINA does not require complete scans, nor does it require a prior learned from large datasets of clothed humans. Learning a complete avatar in this setting is challenging, since only few depth observations are available, which are noisy and incomplete (i.e. only partial visibility of the body per frame). We propose a method to learn the shape and non-rigid deformations via a pose-conditioned implicit surface and a deformation field, defined in canonical space. This allows us to fuse all partial observations into a single consistent canonical representation. Fusion is formulated as a global optimization problem over the pose, shape and skinning parameters. The method can learn neural avatars from real noisy RGB-D sequences for a diverse set of people and clothing styles and these avatars can be animated given unseen motion sequences.

연구 동기 및 목표

비전문가 사용자가 단일 소비자용 RGB-D 영상으로부터 세밀하고 개인화된 3D 애벌러를 생성할 수 있도록 하는 것.
노이즈가 많고 부분적인 깊이 관측치에서 복잡한 의류 세부 사항을 포함한 정확하고 고해상도의 3D 기하 구조를 재구성하는 것.
완전한 스캔이나 옷을 입은 인간에 대한 사전 지식 없이도 애니메이션 가능한 애벌러를 학습하여 현실적인 자세 기반 표면 변형을 구현하는 것.
캐논리컬 스페이스 표현에서 형태, 프레임별 자세, 스킨닝 웨이트를 공동 최적화하여 부분 관측치의 일관된 융합을 가능하게 하는 것.
재학습이나 명시적 지도 학습 없이도 새로운 분포를 벗어난 자세에 일반화하는 것.

제안 방법

인간 신체를 캐논리컬 스페이스에 정의된 암묵적 SDF로 표현하여 영상 시퀀스 전반에 걸쳐 부분적인 깊이 관측치를 일관되게 융합할 수 있도록 한다.
자세 조건에 따라 변형되는 스킨닝 필드를 캐논리컬 스페이스에 정의하여 비정적 변형을 모델링한다.
공간 기울기의 SDF를 깊이 영상에서의 표면 법선과 비교하는 점 기반의 지도 학습 기반 방식을 사용하여 기하학적 세부 사항을 학습한다.
캐논리컬 SDF와 변형 필드를 동시에 개선하기 위해 형태, 프레임별 자세, 스킨닝 웨이트에 대한 전역 최적화를 수행한다.
SNARF에 영감을 받아 캐논리컬 스페이스 대응 관계를 최적화를 통해 활용하여 변형된 공간에서 캐논리컬 스페이스로의 역매핑을 처리한다.
단지 깊이 관측치만을 사용하여 SDF와 스킨닝 필드를 지도하는 가분한 렌더링 파이프라인을 활용하여 진짜 법선이나 완전한 메쉬가 필요 없도록 한다.

실험 결과

연구 질문

RQ1완전한 스캔이나 사전 데이터셋 없이도 노이즈가 많고 부분적인 단일 RGB-D 영상 시퀀스에서 신경 애벌러를 정확하게 재구성할 수 있는가?
RQ2캐논리컬 스페이스에 정의된 암묵적 SDF 표현이 불완전한 깊이 관측치를 일관되고 세밀한 3D 형태로 융합하는 데 효과적인가?
RQ3캐논리컬 스페이스에서 공동 최적화된 스킨닝 필드와 SDF가 새로운 자세에 일반화되면서도 현실적인 의류 변형을 유지할 수 있는가?
RQ4단지 부분적인 2.5D 입력에서만 훈련된 경우, 제안된 방법이 최신 기술 대비 재구성 정확도와 애니메이션 정밀도에서 어떻게 성능을 내는가?
RQ5이 방법은 실제 RGB-D 시퀀스에서 다양한 의류 스타일과 복잡한 기하학적 형태(예: 후드, 퍼퍼 재킷)를 학습할 수 있는가?

주요 결과

PINA는 CAPE 데이터셋에서 IoU 0.946을 기록하여 IP-Net(0.916)과 SCANimate(2.5D)(0.665)를 능가하고, 완전한 3D 입력을 사용한 SCANimate(3D)와 동등한 성능을 내며, 부분적인 2.5D 입력만을 사용함에도 불구하고 성능을 달성했다.
PINA는 CAPE에서 C−ℓ2 손실 0.666을 기록하여 IP-Net(0.786)과 SCANimate(2.5D)(3.704)보다 유의미하게 낮아, 더 뛰어난 재구성 정확도를 보였다.
정성적 결과에서는 PINA가 CAPE나 DSFN과 같은 명시적 메쉬 기반 방법보다 후드, 높은 칼라, 퍼퍼 재킷과 같은 복잡한 의류 기하학적 형태를 더 정확하게 재현했다.
애니메이션 시퀀스에서는 PINA가 새로운 자세에서도 현실적인 변형을 생성하지만, IP-Net과 SCANimate는 과적합과 자세에 의존하는 변형 필드로 인해 아티팩트와 비현실적인 변형을 보였다.
새로운 동작 시퀀스, 예를 들어 춤추기, 운동하기 등에도 잘 일반화되어 분포를 벗어난 자세에 대한 강건성을 보였다.
캐논리컬 스페이스에서 형태, 자세, 스킨닝 웨이트의 공동 최적화는 주제나 의복에 대한 사전 지식 없이도 일관되고 아티팩트 없는 변형을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.