QUICK REVIEW

[논문 리뷰] KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

Marko Mihajlovic, Aayush Bansal|arXiv (Cornell University)|2022. 01. 01.

Human Pose and Action Recognition인용 수 2

한 줄 요약

KeypointNeRF는 희소 3D 키포인트를 사용하여 공간 인코딩을 새롭게 설계함으로써, 오직 두 개 또는 세 개의 시야에서 고해상도이고 일반화 능력이 뛰어난 이미지 기반의 부피적 인간 재구성 가능하게 한다. 전역 인코딩에 의존하는 것 대신 키포인트 간의 상대적 3D 공간 정보를 인코딩함으로써, 재훈련 없이도 새로운 주제와 실외에서 촬영한 iPhone 촬영물에 대해 우수한 일반화 성능과 함께 최신 기술 수준의 헤드 재구성 성능을 달성한다.

ABSTRACT

Image-based volumetric humans using pixel-aligned features promise generalization to unseen poses and identities. Prior work leverages global spatial encodings and multi-view geometric consistency to reduce spatial ambiguity. However, global encodings often suffer from overfitting to the distribution of the training data, and it is difficult to learn multi-view consistent reconstruction from sparse views. In this work, we investigate common issues with existing spatial encodings and propose a simple yet highly effective approach to modeling high-fidelity volumetric humans from sparse views. One of the key ideas is to encode relative spatial 3D information via sparse 3D keypoints. This approach is robust to the sparsity of viewpoints and cross-dataset domain gap. Our approach outperforms state-of-the-art methods for head reconstruction. On human body reconstruction for unseen subjects, we also achieve performance comparable to prior work that uses a parametric human body model and temporal feature aggregation. Our experiments show that a majority of errors in prior work stem from an inappropriate choice of spatial encoding and thus we suggest a new direction for high-fidelity image-based human modeling. https://markomih.github.io/KeypointNeRF

연구 동기 및 목표

이미지 기반 신경 렌디언스 필드에서 전역 공간 인코딩의 한계를 해결하기 위해, 이는 일반적으로 훈련 데이터 분포에 과적합하는 경향이 있다.
희소하고 광각 기반의 시야에서 새로운 신원과 자세로의 일반화 성능을 향상시키기 위해.
재훈련 없이 스튜디오에서 촬영한 데이터에서 실외에서 촬영한 iPhone 촬영물로의 제로샷 전이를 가능하게 하기 위해.
파arametric 신체 모델이나 시간적 특징 융합에 의존하지 않고도 고해상도 부피적 재구성을 달성하기 위해.
신경 렌디언스 필드에서 인간 아바타의 재구성 품질과 일반화 능력에 영향을 미치는 공간 인코딩 선택의 영향을 조사하기 위해.

제안 방법

이 방법은 입력 시야 전역에서 2D 키포인트 검출기를 사용하여 2D 키포인트를 추정하고, 이를 3D 키포인트로 삼각측량한다.
각 쿼리 포인트의 위치를 3D 키포인트에 상대적으로 표현하기 위해, 학습 가능한 임베딩 레이어를 사용하여 상대적 3D 공간 인코딩을 계산한다.
상대적 공간 인코딩은 픽셀 정렬 특징과 결합되어 NeRF 기반의 렌디언스 필드 네트워크에 입력되어 부피 렌더링을 수행한다.
공간 인코딩은 카메라 파ram에 대해 불변적이므로 자세 및 시점 변화에 대해 강건하다.
모델은 다중 시야 일致성 손실과 렌더링된 이미지에 대한 L1 손실을 사용하여 엔드 투 엔드로 훈련된다.
이 접근법은 파라미터 기반의 신체 모델이나 시간적 특징 융합이 필요 없어, 전체 신체 재구성에 직접 적용 가능하다.

실험 결과

연구 질문

RQ1공간 인코딩 선택이 이미지 기반의 부피적 인간 재구성에서 일반화에 어떤 영향을 미치는가?
RQ23D 키포인트를 통한 상대적 공간 인코딩이 희소하고 광각 기반의 시야에서 재구성 정밀도와 강건성을 향상시킬 수 있는가?
RQ3스튜디오에서 촬영한 데이터로 훈련된 모델이 미세조정 없이 실외에서 촬영한 iPhone 촬영물로 얼마나 잘 일반화되는가?
RQ4키포인트 기반 공간 인코딩이 새로운 신원과 자세로의 제로샷 일반화에서 전역 인코딩을 능가하는가?
RQ5키포인트 중심의 접근법이 파라미터 기반 신체 모델과 시간적 집합에 의존하는 복잡한 방법들과 비교해 유사한 성능을 달성할 수 있는가?

주요 결과

KeypointNeRF는 동적 표정에서 최신 기술 수준의 성능을 달성하였으며, 헤드 재구성에서 PSNR 27.30, SSIM 85.31을 기록하였다.
실외에서 촬영한 iPhone 촬영물에서 KeypointNeRF는 PSNR 25.29, SSIM 86.73를 기록하였으며, IBRNet(PSNR 18.45, SSIM 81.74)를 크게 앞서는 성능을 보였다.
이 방법은 스튜디오에서 촬영한 훈련 데이터만을 사용하여 실외에서 촬영한 iPhone 촬영물로의 제로샷 일반화가 가능하며, 이는 이전 연구에서 구현되지 않은 능력이다.
ZJU-MoCap 데이터셋에서 전신 재구성에 대해 KeypointNeRF는 PSNR 25.03, SSIM 89.69를 기록하였으며, 복잡한 Neural Human Performer(NHP)와 동등한 성능을 달성하였다.
제거 실험 결과, 상대적 공간 인코딩을 제거할 경우 PSNR는 24.66으로, SSIM은 89.30으로 감소하여, 이 인코딩의 핵심적 역할을 확인하였다.
이 방법은 이전 연구에서 재구성 오류의 주요 원인이 잘못된 공간 인코딩임을 입증하며, 신경 렌더링 분야에 새로운 방향을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.