QUICK REVIEW

[논문 리뷰] A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering

Shih-Yang Su, Frank Yu|arXiv (Cornell University)|2021. 02. 11.

Advanced Vision and Imaging인용 수 35

한 줄 요약

A-NeRF는 신경 볼륨 렌더링 장치와 관절 구조 스켈레톤 임bedding를 사용하여 단일 캘리브레이션되지 않은 카메라에서 고해상도 3D 신체 형태와 자세 재구성을 위한 자기지도 학습, 테스트 시 최적화 방법을 제안한다. 이는 사전 3D 모델이나 지도 레이블이 필요 없이 고성능의 3D 신체 형태와 자세 재구성을 가능하게 하며, 순수 판별적 방법보다 우수하고 다양한 시점에서 일반화된다.

ABSTRACT

While deep learning has reshaped the classical motion capture pipeline, generative, analysis-by-synthesis elements are still in use to recover fine details if a high-quality 3D model of the user is available. Unfortunately, obtaining such a model for every user a priori is challenging, time-consuming, and limits the application scenarios. We propose a novel test-time optimization approach for monocular motion capture that learns a volumetric body model of the user in a self-supervised manner. To this end, our approach combines the advantages of neural radiance fields with an articulated skeleton representation. Our proposed skeleton embedding serves as a common reference that links constraints across time, thereby reducing the number of required camera views from traditionally dozens of calibrated cameras, down to a single uncalibrated one. As a starting point, we employ the output of an off-the-shelf model that predicts the 3D skeleton pose. The volumetric body shape and appearance is then learned from scratch, while jointly refining the initial pose estimate. Our approach is self-supervised and does not require any additional ground truth labels for appearance, pose, or 3D shape. We demonstrate that our novel combination of a discriminative pose estimation technique with surface-free analysis-by-synthesis outperforms purely discriminative monocular pose estimation approaches and generalizes well to multiple views.

연구 동기 및 목표

단일 카메라에서의 운동 캡처를 위해 모든 사용자에게 사전에 고품질 3D 신체 모델을 확보하는 문제를 해결하기 위해.
수십 대의 캘리브레이션된 카메라에 의존하는 것을 줄이고 단일 캘리브레이션되지 않은 카메라에서 정확한 3D 재구성을 가능하게 하기 위해.
자기지도 학습 방식으로 초기 3D 자세 추정치를 개선하면서 볼륨형 신체 형태와 외관을 동시에 학습하기 위해.
학습 또는 추론 시 외관, 자세, 3D 형태의 지도 레이블이 필요 없도록 하기 위해.
순수 판별적 단일 카메라 자세 추정 방법보다 일반화 능력과 성능을 향상시키기 위해.

제안 방법

이 방법은 신경 볼륨 렌더링 장치(NeRF)와 관절 구조 스켈레톤 표현을 결합하여 3D 신체 형태, 외관, 자세를 동시에 최적화한다.
일관성을 확보하고 다수의 카메라 시점에 대한 의존도를 줄이기 위해 공유된 시간적 기준으로 스켈레톤 임베딩을 도입한다.
기존의 3D 자세 추정 네트워크 출력에서 시작하여 테스트 시 최적화를 통해 개선한다.
볼륨형 신체 형태와 외관은 단일 카메라 영상 입력과 자기지도 학습 지도만으로 처음부터 학습한다.
최적화는 미분 가능하게 수행되어 단일 캘리브레이션되지 않은 카메라를 사용하여 3D 기하학과 자세를 종단 간 최적화할 수 있다.
명시적인 표면 지도나 명시적인 3D 모델 지도가 필요 없이 분석-통합 원리(analysis-by-synthesis)를 활용한다.

실험 결과

연구 질문

RQ1사전 3D 모델이 없이도 단일 캘리브레이션되지 않은 카메라로 고해상도 3D 인간 신체 재구성이 가능한가?
RQ2자기지도 학습 방법을 통해 단일 카메라 영상에서 3D 자세와 볼륨형 신체 형태를 동시에 보정할 수 있는가?
RQ3스켈레톤 임베딩이 다수의 캘리브레이션된 시점이 필요 없도록 안정적인 시간적 기준으로 기능할 수 있는가?
RQ4판별적 자세 추정과 표면 없는 분석-통합 원리를 결합하면 순수 판별적 방법보다 성능이 뛰어나게 되는가?
RQ5명시적인 다중 시점 지도 없이도 이 방법은 여러 시점으로 일반화되는가?

주요 결과

이 방법은 지도 레이블이 없는 3D 형태나 외관을 요구하지 않으며, 단일 카메라 3D 인간 자세 추정 분야에서 최고 성능을 달성한다.
수십 대의 캘리브레이션된 카메라가 필요 없이 단일 캘리브레이션되지 않은 카메라에서도 세밀한 3D 신체 형태와 자세를 성공적으로 재구성한다.
스켈레톤 임베딩의 사용은 일관된 시간 모델링을 가능하게 하며, 일련의 영상에서 재구성 정밀도를 향상시킨다.
이 방법은 다중 시점으로 일반화가 잘 되어 있어 단일 시점 설정을 초월한 강건성을 보여준다.
자기지도 학습 학습 철학은 추가 지도 없이 형태, 외관, 자세의 동시 최적화를 가능하게 한다.
3D 관절 키포인트 정확도와 기하학적 일관성 측면에서 순수 판별적 단일 카메라 자세 추정 기준보다 성능이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.