[논문 리뷰] GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning
GP-VTON은 고해상도 벤치마크에서 최첨단 방법을 능가하는 고충실도의 의미적으로 올바른 의상 워핑을 달성하기 위해 Local-Flow Global-Parsing 워핑 모듈과 Dynamic Gradient Truncation을 도입합니다.
Image-based Virtual Try-ON aims to transfer an in-shop garment onto a specific person. Existing methods employ a global warping module to model the anisotropic deformation for different garment parts, which fails to preserve the semantic information of different parts when receiving challenging inputs (e.g, intricate human poses, difficult garments). Moreover, most of them directly warp the input garment to align with the boundary of the preserved region, which usually requires texture squeezing to meet the boundary shape constraint and thus leads to texture distortion. The above inferior performance hinders existing methods from real-world applications. To address these problems and take a step towards real-world virtual try-on, we propose a General-Purpose Virtual Try-ON framework, named GP-VTON, by developing an innovative Local-Flow Global-Parsing (LFGP) warping module and a Dynamic Gradient Truncation (DGT) training strategy. Specifically, compared with the previous global warping mechanism, LFGP employs local flows to warp garments parts individually, and assembles the local warped results via the global garment parsing, resulting in reasonable warped parts and a semantic-correct intact garment even with challenging inputs.On the other hand, our DGT training strategy dynamically truncates the gradient in the overlap area and the warped garment is no more required to meet the boundary constraint, which effectively avoids the texture squeezing problem. Furthermore, our GP-VTON can be easily extended to multi-category scenario and jointly trained by using data from different garment categories. Extensive experiments on two high-resolution benchmarks demonstrate our superiority over the existing state-of-the-art methods.
연구 동기 및 목표
- global warping의 한계(의미론적 손실 및 도전적 포즈/의상에서의 질감 왜곡) 해결
- 고실감(realism)을 가진 다중 카테고리 VTON(상의, 하의, 원피스)을 지원하는 통합 프레임워크 개발
- 파트 의미를 보존하고 경계로 인한 질감 압축을 피하여 의상 워핑을 개선
- 다양한 입력에서 변형 및 질감 보존을 안정화시키기 위한 학습 전략 제안
제안 방법
- Local-Flow Global-Parsing (LFGP) 워핑 제안: 의상 파트를 로컬로 워핑하고 글로벌 의상 파싱과 함께 조립하여 일관된 워핑 의상을 형성
- 의상 파트별(왼팔소매, 오른팔소매, torso) 다중 스케일 피처에 의해 안내되는 로컬 플로우 추정의 계단식 구조를 도입하고, 원활한 조립을 보장하는 글로벌 파싱 블록과 함께 사용
- Dynamic Gradient Truncation (DGT) 학습 전략을 도입하여 입는 스타일(밀착-안쪽으로 넣기 vs 바깥으로 빼기)에 따라 보존 영역의 그래디언트를 적응적으로 잘라 질감 압축이나 신장을 방지
- Res-UNet 기반의 피팅 제네레이터를 사용하여 워핑된 의상, 피부/컬러 맵, 보존 영역 가이드를 융합하여 최종 피팅 이미지를 합성
- GP-VTON을 다중 카테고리 VTON으로 확장하기 위해 상의, 하의, 원피스 카테고리 전반에 걸쳐 좌우 소매 및 torso의 3부분 의상 분할을 통일적으로 적용하여 의상 간 공동 학습 가능
실험 결과
연구 질문
- RQ1로컬 파트 의상 워핑과 글로벌 파싱이 복잡한 포즈에서 의미적으로 올바른 변형을 달성할 수 있는가?
- RQ2보존된 영역 주위의 질감 보존이 정적 잘라내기나 잘라내지 않는 경우보다 Dynamic Gradient Truncation에서 개선되는가?
- RQ3GP-VTON이 다중 카테고리 가상 피팅(상의, 하의, 원피스)으로 일반화하면서 시각적 실감성과 의미론적 정확성을 얼마나 유지할 수 있는가?
주요 결과
| Method | SSIM | FID | LPIPS | mIoU | HE |
|---|---|---|---|---|---|
| PF-AFN | 0.8858 | 9.475 | 0.0871 | 0.8412 | 14.9% |
| FS-VTON | 0.8829 | 9.552 | 0.0906 | 0.8357 | 8.80% |
| HR-VITON | 0.8623 | 16.21 | 0.1094 | 0.6949 | 9.10% |
| SDAFN | 0.8821 | 9.400 | 0.0922 | 0.5927 | 16.3% |
| GP-VTON (Ours) | 0.8939 | 9.197 | 0.0799 | 0.8764 | 50.9% |
- GP-VTON은 SSIM, FID, LPIPS 및 mIoU 지표에서 VITON-HD 및 DressCode에 대해 일관되게 베이스라인을 능가합니다.
- G-P-VTON은 베이스라인 대비 유의미한 mIoU 개선(0.8764)과 우수한 HE 점수(50.9%)를 달성하여 더 나은 의미론적 정확성과 지각적 리얼리즘을 시사합니다.
- 절단 연구에서 로컬 플로우가 글로벌-플로우 변형보다 SSIM/LPIPS 및 mIoU를 개선하고 글로벌 파싱이 중첩 아티팩트를 효과적으로 제거함을 보였습니다.
- DGT(Dynamic Gradient Truncation)는 질감 왜곡을 줄여 고정 GT 전략과 비교해 R_diff가 낮고 질감 보존이 더 우수합니다.
- 이 접근 방식은 고해상도 벤치마크에서 여전히 효과적이며 다중 카테고리 VTON에 대한 잠재력을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.