[논문 리뷰] The Virtual Tailor: Predicting Clothing in 3D as a Function of Human Pose, Shape and Garment Style
TailorNet는 자세, 형태, 의복 스타일을 함께 모델링하여 세밀한 3D 옷 주름을 예측하는 신경망 모델로, 변형을 저주파 및 고주파 성분으로 분해한다. 이는 물리 기반 시뮬레이션보다 1000배 이상 빠르면서도 실제감 있는 주름을 유지하며, 운동 시퀀스에서 미분 가능하고 시간적으로 일관된 결과를 제공한다.
In this paper, we present TailorNet, a neural model which predicts clothing deformation in 3D as a function of three factors: pose, shape and style (garment geometry), while retaining wrinkle detail. This goes beyond prior models, which are either specific to one style and shape, or generalize to different shapes producing smooth results, despite being style specific. Our hypothesis is that (even non-linear) combinations of examples smooth out high frequency components such as fine-wrinkles, which makes learning the three factors jointly hard. At the heart of our technique is a decomposition of deformation into a high frequency and a low frequency component. While the low-frequency component is predicted from pose, shape and style parameters with an MLP, the high-frequency component is predicted with a mixture of shape-style specific pose models. The weights of the mixture are computed with a narrow bandwidth kernel to guarantee that only predictions with similar high-frequency patterns are combined. The style variation is obtained by computing, in a canonical pose, a subspace of deformation, which satisfies physical constraints such as inter-penetration, and draping on the body. TailorNet delivers 3D garments which retain the wrinkles from the physics based simulations (PBS) it is learned from, while running more than 1000 times faster. In contrast to PBS, TailorNet is easy to use and fully differentiable, which is crucial for computer vision algorithms. Several experiments demonstrate TailorNet produces more realistic results than prior work, and even generates temporally coherent deformations on sequences of the AMASS dataset, despite being trained on static poses from a different dataset. To stimulate further research in this direction, we will make a dataset consisting of 55800 frames, as well as our model publicly available at this https URL.
연구 동기 및 목표
- 자세, 형태, 의복 스타일에 걸쳐 일반화되면서도 세밀한 주름을 유지하는 고해상도 3D 옷 변형을 학습하는 데 도전한다.
- 이전 모델들이 세부 사항이 부족하거나 스타일과 형태 간 일반화에 실패하는 한계를 극복한다.
- 컴퓨터 비전 및 애니메이션 파이프라인에서 사용 가능한 빠르고, 미분 가능하며 시간적으로 일관된 3D 의복 예측을 가능하게 한다.
- 저주파 및 고주파 변형 성분을 별도로 분리하고 모델링하여 고주파 주름 세부 정보를 유지하는 방법을 개발한다.
제안 방법
- 3D 의복 변형을 저주파 및 고주파 성분으로 분해하여 세부 주름을 별도로 고려하고 모델링한다.
- 자세, 형태, 스타일 파라미터를 기반으로 저주파 성분을 예측하기 위해 다층 신경망(MLP)을 사용한다.
- 형태 및 스타일에 특화된 자세 모델의 혼합을 고주파 성분에 적용하며, 커널 기반 가중치를 사용해 유사한 고주파 패턴만 조합한다.
- 물리적 제약 조건(예: 상호관류 방지, 적절한 떨어짐)을 만족하는 캐논리컬 공간 변형 부분공간을 구성한다.
- 다양한 데이터셋에서의 정적 3D 의복 자세를 기반으로 엔드 투 엔드로 모델을 훈련시켜, 예측되지 않은 자세, 형태, 스타일 조합에 대한 일반화 능력을 확보한다.
- 미분 가능성을 활용해 최적화 파이프라인에 통합할 수 있으며, 정적 데이터로 훈련되었음에도 불구하고 운동 시퀀스에서 시간적으로 일관된 변형을 생성한다.
실험 결과
연구 질문
- RQ1딥 러닝 모델이 다양한 자세, 형태, 의복 스타일에 걸쳐 세밀한 주름 세부 정보를 유지하면서 3D 옷 변형을 동시에 예측할 수 있는가?
- RQ2변형을 저주파 및 고주파 성분으로 분리하여 모델링하면, 종래의 엔드 투 엔드 학습 대비 주름과 같은 고주파 특징을 더 잘 모델링할 수 있는가?
- RQ3정적 자세로 훈련된 모델이 운동 시퀀스에 적용되었을 때 시간적으로 일관된 변형을 생성할 수 있는가?
- RQ4실제감, 속도, 미분 가능성 측면에서 물리 기반 시뮬레이션과 비교해 본다면 제안된 방법의 성능는 어떠한가?
주요 결과
- TailorNet는 훈련에 사용된 물리 기반 시뮬레이션에서 유도된 세밀한 주름 세부 정보를 유지하는 3D 옷을 생성한다.
- 물리 기반 시뮬레이션보다 1000배 이상 빠르면서도 높은 시각적 정밀도를 유지도한다.
- 정적 자세로 훈련되었음에도 불구하고, AMASS 데이터셋의 시퀀스에 적용했을 때 시간적으로 일관된 변형을 생성한다.
- 형태 및 스타일에 특화된 고주파 모델의 커널 가중 혼합을 사용함으로써 정확하고 국소화된 주름 예측이 가능해졌다.
- 모델는 완전히 미분 가능하므로 최적화 기반의 컴퓨터 비전 파이프라인에 통합하기에 적합하다.
- 예측되지 않은 자세, 형태, 스타일 조합에 대해 잘 일반화되며, 이전의 스타일 전용 또는 형태 일반화 모델보다 실제감 있는 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.