QUICK REVIEW

[논문 리뷰] SCALE: Modeling Clothed Humans with a Surface Codec of Articulated Local Elements

Qianli Ma, Shunsuke Saito|arXiv (Cornell University)|2021. 01. 01.

3D Shape Modeling and Analysis참고 문헌 83인용 수 2

한 줄 요약

SCALE는 798개의 운동 가능한 국소 표면 요소를 사용하여 옷을 입은 인간을 모델링하는 신경 표면 코덱을 제안한다. 이는 전반적인 신체 운동과 국소적인 옷의 변형을 명시적으로 분리한다. 국소 특징에서 국소 기하학을 회귀하고, 자세 인식 임베딩을 학습함으로써 고해상도의, 토폴로지에 강건한 옷의 재구성과 현실적인 운동 및 신경 렲링을 달성하며, 재구성 정확도와 추론 속도에서 기존 최고 성능(SOTA)을 능가한다.

ABSTRACT

Learning to model and reconstruct humans in clothing is challenging due to articulation, non-rigid deformation, and varying clothing types and topologies. To enable learning, the choice of representation is the key. Recent work uses neural networks to parameterize local surface elements. This approach captures locally coherent geometry and non-planar details, can deal with varying topology, and does not require registered training data. However, naively using such methods to model 3D clothed humans fails to capture fine-grained local deformations and generalizes poorly. To address this, we present three key innovations: First, we deform surface elements based on a human body model such that large-scale deformations caused by articulation are explicitly separated from topological changes and local clothing deformations. Second, we address the limitations of existing neural surface elements by regressing local geometry from local features, significantly improving the expressiveness. Third, we learn a pose embedding on a 2D parameterization space that encodes posed body geometry, improving generalization to unseen poses by reducing non-local spurious correlations. We demonstrate the efficacy of our surface representation by learning models of complex clothing from point clouds. The clothing can change topology and deviate from the topology of the body. Once learned, we can animate previously unseen motions, producing high-quality point clouds, from which we generate realistic images with neural rendering. We assess the importance of each technical contribution and show that our approach outperforms the state-of-the-art methods in terms of reconstruction accuracy and inference time. The code is available for research purposes at https://qianlim.github.io/SCALE .

연구 동기 및 목표

복잡하고 토폴로지가 변하는 옷을 운동 가능한 인간 신체에 현실적으로 변형시키는 도전 과제를 해결하기 위해.
기존 표면 요소 방법이 주름이나 접힘이 같은 세밀한 국소적 세부 사항을 포착하지 못하는 한계를 극복하기 위해.
등록된 훈련 데이터나 고정된 토폴로지를 요구하지 않고도 새로운 자세나 옷 종류로의 일반화를 가능하게 하기 위해.
신경 렌더링과 기존의 신체 모델과 호환되는, 미분 가능하고 효율적인 표현을 개발하기 위해.

제안 방법

최소한의 옷을 입은 신체 모델에 기반해 표면 요소를 변형시켜 대규모 운동과 국소적 옷의 변형을 명시적으로 분리한다.
국소 특징 코드를 사용해 세밀한 국소 기하학을 회귀함으로써 전반적인 잠재 코드를 넘어서 표현력을 향상시킨다.
신체 자세를 캡슐화하고 국소적이지 않은 상관관계를 줄이기 위해 2차원 매개변수 공간에서 자세 임베딩을 학습한다.
예측된 법선과 텍스처를 포함한 조밀한 점군으로 최종 출력을 표현하여 신경 렌더링 또는 메쉬 생성을 가능하게 한다.
최소한의 옷을 입은 3D 스캔 데이터에서 끝에서 끝까지 훈련하여, 데이터 정렬 없이 자세 시퀀스에서 옷을 예측하도록 학습한다.
학습 가능한 삼각분할을 사용해 패치 간 연결성을 모델링하지만, 이는 향후 작업으로 남겨둔다.

실험 결과

연구 질문

RQ1표면 요소 기반 표현은 옷을 입은 인간 신체의 주름이나 접힘과 같은 세밀한 국소 변형을 포착할 수 있는가?
RQ2전반적인 운동과 국소적 옷의 변형을 어떻게 분리하여 새로운 자세로의 일반화를 향상시킬 수 있는가?
RQ3국소 특징 기반 디코딩은 전반적인 잠재 코드 디코딩에 비해 재구성 정밀도를 향상시킬 수 있는가?
RQ42차원 매개변수 공간에서 자세 임베딩을 학습하면 비국소적인 상관관계를 줄이고 일반화를 향상시킬 수 있는가?
RQ5고정 템플릿에 의존하지 않고도, 장 드레스나 스커트와 같은 토폴로지 변화가 있는 옷을 처리할 수 있는가?

주요 결과

CAPE 데이터셋에서 SCALE는 Chamfer-L2 오차 0.93 × 10⁻⁴ m²를 기록하여 기존 SOTA 모델인 CAPE(1.28 × 10⁻⁴ m²)와 NASA(4.08 × 10⁻⁴ m²)를 능가한다.
장 드레스 벤치마크에서 SCALE는 Chamfer-L2 오차 8.41 × 10⁻⁴ m²를 기록하여 전역 코드를 사용하는 AtlasNet 및 PCN 기반 방법보다 뚜렷이 뛰어나다.
메시의 형태가 달라지더라도 일관되고 고품질의 점군을 생성하며, 예측된 법선과 텍스처를 통해 다양한 자세에서 현실적인 신경 렌더링을 가능하게 한다.
오차 분석 결과, 패치 중심 대비 외곽에서 Chamfer 오차가 단지 4% 높을 뿐이므로 국소 세부 사항 보존 능력이 뛰어나다.
정성적 결과는 토폴로지 변화가 있는 경우에도 일관된 전반적 운동과 현실적인 국소 구조(예: 주름, 가장자리)를 보여준다.
이 방법은 장드레스와 같은 토폴로지가 복잡한 의류를 포함해 새로운 운동과 의류 유형으로도 잘 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.