QUICK REVIEW

[논문 리뷰] Learning Implicit 3D Representations of Dressed Humans from Sparse Views

Pierre Zins, Yuanlu Xu|arXiv (Cornell University)|2021. 04. 16.

Human Pose and Action Recognition인용 수 23

한 줄 요약

이 논문은 희소 다중 시점 입력으로부터 옷을 입은 인간의 암묵적 3D 표현을 학습하기 위한 엔드 투 엔드 방법을 제안하며, 다중 시점 맥락 하에서 주의 기반 융합 레이어와 국소 3D 패턴 인코딩 메커니즘을 도입하여 표준 벤치마크에서 최신 기술 수준의 성능을 달성하고, 다중 시점 스테레오와 유사한 고품질 복원을 훨씬 적은 수의 시점으로 가능하게 한다.

ABSTRACT

Recently, data-driven single-view reconstruction methods have shown great progress in modeling 3D dressed humans. However, such methods suffer heavily from depth ambiguities and occlusions inherent to single view inputs. In this paper, we address such issues by lifting the single-view input with additional views and investigate the best strategy to suitably exploit information from multiple views. We propose an end-to-end approach that learns an implicit 3D representation of dressed humans from sparse camera views. Specifically, we introduce two key components: first an attention-based fusion layer that learns to aggregate visual information from several viewpoints; second a mechanism that encodes local 3D patterns under the multi-view context. In the experiments, we show the proposed approach outperforms the state of the art on standard data both quantitatively and qualitatively. Additionally, we apply our method on real data acquired with a multi-camera platform and demonstrate our approach can obtain results comparable to multi-view stereo with dramatically less views.

연구 동기 및 목표

옷을 입은 인간의 3D 복원에서 깊이 모호성과 가림을 해결하기 위해.
단일 입력 시점에 의존하지 않고 다수의 희소 시점을 활용하여 3D 복원 품질을 향상시키기 위해.
제한된 카메라 시점으로부터 암묵적으로 인간 신체 및 옷 형태를 표현하는 엔드 투 엔드 학습 프레임워크를 개발하기 위해.
伝통적인 다중 시점 스테레오 방법보다 훨씬 적은 수의 시점으로도 고 fidelity 3D 복원을 가능하게 하기 위해.

제안 방법

다양한 시점에서의 시각적 특징을 동적으로 융합하기 위해 주의 기반 융합 레이어를 도입한다.
여러 시점의 특징을 사용하여 국소 3D 패턴을 다중 시점 맥락 인식 메커니즘을 통해 인코딩한다.
엔드 투 엔드로 훈련된 신경망을 사용하여 인간 신체와 옷의 암묵적 3D 표현을 학습한다.
다중 시점 감독에 대응하여 암묵적 표현을 최적화하기 위해 가분성 렌더링 및 감독 전략을 사용한다.
다중 시점 특징과 기하학적 일관성을 조합하여 깊이 추정을 향상시키고 모호성을 감소시킨다.
다중 시점 감독과 암묵적 형태 정규화를 조합하여 모델을 훈련한다.

실험 결과

연구 질문

RQ1주의 기반 융합이 희소 다중 시점 입력에서의 시각적 신호를 효과적으로 융합하여 옷을 입은 인간의 3D 복원에 기여할 수 있는가?
RQ2가림과 깊이 모호성 하에서도 학습된 암묵적 표현이 옷과 신체 형태의 세부 사항을 얼마나 잘 포착할 수 있는가?
RQ3제안된 방법이 훨씬 적은 수의 시점으로 다중 시점 스테레오 성능에 근접할 수 있는가?
RQ4다중 시점 맥락의 통합이 암묵적 표현에서 국소 3D 패턴 인코딩을 향상시키는가?
RQ5모델은 다중 카메라 플랫폼으로 촬영된 실제 데이터에 일반화되는가?

주요 결과

제안된 방법은 옷을 입은 인간을 위한 표준 3D 복원 벤치마크에서 최신 기술 수준의 정량적 성능을 달성한다.
기존의 단일 시점 및 다중 시점 기반 모델들과 비교해 정성적 복원 품질이 뛰어나다.
다중 카메라 플랫폼에서 확보한 실제 데이터에서, 제안된 방법은 전통적인 다중 시점 스테레오 방법과 유사한 결과를 훨씬 적은 입력 시점으로 달성한다.
주의 기반 융합 레이어는 유의미한 특징을 효과적으로 융합하여 노이즈와 모호성을 감소시킨다.
국소 3D 패턴 인코딩 메커니즘은 특히 가려진 영역과 복잡한 옷차림 영역에서 세부 사항의 유지에 기여한다.
희소 시점 데이터에 대해 뛰어난 강건성과 일반화 능력을 보이며 실용적 적용 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.