[논문 리뷰] Virtual Try-On for Cultural Clothing: A Benchmarking Study
논문은 BD-VITON를 소개하고 세 가지 최첨단 모델(VITON-HD, HR-VITON, StableVITON)을 미세조정으로 벤치마크하여 문화적으로 다양한 의복에서 제로샷 추론 대비 성능 향상을 보인다.
Although existing virtual try-on systems have made significant progress with the advent of diffusion models, the current benchmarks of these models are based on datasets that are dominant in western-style clothing and female models, limiting their ability to generalize culturally diverse clothing styles. In this work, we introduce BD-VITON, a virtual try-on dataset focused on Bangladeshi garments, including saree, panjabi and salwar kameez, covering both male and female categories as well. These garments present unique structural challenges such as complex draping, asymmetric layering, and high deformation complexities which are underrepresented in the original VITON dataset. To establish strong baselines, we retrain and evaluate try-on models, namely StableViton, HR-VITON, and VITON-HD on our dataset. Our experiments demonstrate consistent improvements in terms of both quantitative and qualitative analysis, compared to zero shot inference.
연구 동기 및 목표
- 가정의 문화적으로 다양한 학습 데이터의 부족을 해결하기 위해 BD-VITON라는 방글라데시 의상 데이터셋을 도입합니다.
- BD-VITON에서 기존 VITON 아키텍처를 미세조정했을 때 제로샷 추론 대비 성능이 향상되는지 평가합니다.
- 현재의 피팅 모델이 직면한 복잡한 의복 구조(사리, 판자비, 카미즈)로 인한 문제를 분석합니다.
- 문화적으로 다양한 패션 도메인으로 가상 피팅을 확장하기 위한 기준선과 인사이트를 제공합니다.
제안 방법
- 사전 학습된 우수한 정합 파이프라인을 활용하여 사리, 판자비, 카미즈를 양성한 남녀 모두를 망라하는 1,013장의 짝지어진 이미지로 BD-VITON을 구성합니다(반은 학습용, 반은 테스트용).
- semantic parsing, 의상 마스크, DensePose 가이던스를 위한 SCHP, FASHN Human Parser, SegFormer, OpenPose, DensePose를 활용한 자동 주석화 파이프라인을 개발합니다.
- BD-VITON에 맞게 VITON-HD, HR-VITON, StableVITON을 적응시키고, 세분화/생성 구성요소를 위한 학습 스크립트와 손실 함수들을 구성합니다.
- 과적합을 완화하고 도메인 간 학습을 강화하기 위한 의복 경계 노이즈, 회전 등 데이터 증강 전략을 도입합니다.
- 구조적 충실도와 현실감을 평가하기 위해 짝지어진 지표(SSIM, LPIPS)와 비쌍정(FID)을 사용하여 모델을 평가합니다.
실험 결과
연구 질문
- RQ1문화적으로 다양한 BD-VITON 데이터셋에서 기존 가상 피팅 모델의 미세조정이 제로샷 추론 대비 성능 향상을 가져오는가?
- RQ2Western 중심의 피팅 아키텍처가 방글라데시의 복잡한 의복(사리, 판자비, 카미즈)을 구조적 충실도와 현실감 측면에서 어떻게 대응하는가?
- RQ3데이터셋 특유의 증강 및 주석 파이프라인이 문화 의류 모델 성능에 어떤 영향을 주는가?
- RQ4훈련 후 어떤 모델 아키텍처(diffusion 기반 vs. TPS 기반 vs. 비정렬 인식)가 BD-VITON에 일반화되는가?
- RQ5BD-VITON을 더 넓은 문화 의복 유형으로 확장하는데 있어 한계점과 잠재적 방향은 무엇인가?
주요 결과
| 모델 | 제로샷 | SSIM ↑ | LPIPS ↓ | FID ↓ |
|---|---|---|---|---|
| HR-VITON | ✓ | 0.478 | 0.675 | 259.25 |
| HR-VITON | ✗ | 0.815 | 0.156 | 42.92 |
| StableVITON | ✓ | 0.722 | 0.238 | 69.59 |
| StableVITON | ✗ | 0.732 | 0.219 | 50.40 |
| VITON-HD | ✓ | 0.813 | 0.244 | 100.07 |
| VITON-HD | ✗ | 0.868 | 0.154 | 49.89 |
- 세 가지 모델 모두 BD-VITON에서 미세조정 후 제로샷 추론보다 성능이 향상되었으며, 문화에 특화된 학습을 통해 분포 간 불일치를 완화한다.
- HR-VITON은 제로샷에서 강한 성능을 보이지만 비쌍성 설정에서 의복 붙여넣기 동작으로 인해 성능 저하가 나타나며, 증강 학습으로 이를 개선할 수 있다.
- Diffusion 기반이면서도 강력한 StableVITON은 학습 에폭 수 제한 및 수렴 문제로 인해 훈련 후 성능이 가장 낮게 나타나는 경향이 있다.
- VITON-HD는 세분화 기반과 TPS 기반 워핑의 혼합으로 안정적인 성능을 유지하며 확산 기반 방법과 비교해 경쟁력 있는 결과를 제공한다.
- BD-VITON 테스트 세트에 대한 정량적 결과는 모델 및 훈련 대 제로샷 조건에 따라 다양한 SSIM, LPIPS, FID 값을 보인다(아래 표 참조).
- qualitative analysis는 모델별 실패 모드를 강조한다: HR-VITON은 워프 정렬이 어긋나고, VITON-HD는 안정성을 제공하며, StableVITON은 충분한 학습이 없으면 과적합될 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.