[論文レビュー] GP-VTON: Towards General Purpose Virtual Try-on via Collaborative Local-Flow Global-Parsing Learning
GP-VTON は Local-Flow Global-Parsing ウォーピングモジュールと Dynamic Gradient Truncation を導入し、高解像度ベンチマークでのマルチカテゴリ仮想試着において高 fidelity かつ意味論的に正しい衣服のワーピングを実現し、最先端手法を上回る。
Image-based Virtual Try-ON aims to transfer an in-shop garment onto a specific person. Existing methods employ a global warping module to model the anisotropic deformation for different garment parts, which fails to preserve the semantic information of different parts when receiving challenging inputs (e.g, intricate human poses, difficult garments). Moreover, most of them directly warp the input garment to align with the boundary of the preserved region, which usually requires texture squeezing to meet the boundary shape constraint and thus leads to texture distortion. The above inferior performance hinders existing methods from real-world applications. To address these problems and take a step towards real-world virtual try-on, we propose a General-Purpose Virtual Try-ON framework, named GP-VTON, by developing an innovative Local-Flow Global-Parsing (LFGP) warping module and a Dynamic Gradient Truncation (DGT) training strategy. Specifically, compared with the previous global warping mechanism, LFGP employs local flows to warp garments parts individually, and assembles the local warped results via the global garment parsing, resulting in reasonable warped parts and a semantic-correct intact garment even with challenging inputs.On the other hand, our DGT training strategy dynamically truncates the gradient in the overlap area and the warped garment is no more required to meet the boundary constraint, which effectively avoids the texture squeezing problem. Furthermore, our GP-VTON can be easily extended to multi-category scenario and jointly trained by using data from different garment categories. Extensive experiments on two high-resolution benchmarks demonstrate our superiority over the existing state-of-the-art methods.
研究の動機と目的
- VTON におけるグローバルワーピングの限界(意味論的喪失・難易度の高いポーズや衣服でのテクスチャ歪み)を解決する。
- 高いリアリズムを持つマルチカテゴリ VTON(上着・下衣・ドレス)をサポートする統一フレームワークを開発する。
- 部位意味論を保ち、境界によるテクスチャの圧縮を回避して衣服のワーピングを改善する。
- さまざまな入力に対して変形とテクスチャ保持を安定化させるトレーニング戦略を提案する。
提案手法
- Local-Flow Global-Parsing (LFGP) ウォーピングを提案:衣服パーツを局所的にワープし、グローバルな衣服パースを組み立てて一貫した歪んだ衣服を形成する。
- 衣服パーツごとの局所フロー推定のカスケード(左袖、右袖、胴体)を導入し、個人と衣服用の別々のエンコーダからのマルチスケール特徴量と、シームレスな組み立てを保証するグローバルパースブロックを組み合わせる。
- Dynamic Gradient Truncation (DGT) トレーニング戦略を使用し、着装スタイル(タックイン vs. タックアウト)に基づいて保持領域の勾配を適応的に切り詰めて、テクスチャの絞りつめや伸びを防止する。
- Res-UNet ベースの試着生成器を用い、歪んだ衣服、肌/カラー マップ、保持領域ガイダンスを融合して最終的な試着画像を合成する。
- 統一された三部衣服分割(左袖、右袖、 torso)を上衣・下衣・ドレスのカテゴリ間で適用し、マルチカテゴリ VTON へのGP-VTON の拡張と共同トレーニングを実現する。
実験結果
リサーチクエスチョン
- RQ1複雑なポーズ下で、局所パーツの衣服ワーピングとグローバルパースが意味論的に正しい変形を達成できるか?
- RQ2DGT は保持領域周辺のテクスチャ保持を、固定的な切り詰めや切り詰めなしと比べて改善するか?
- RQ3 GP-VTON は上衣・下衣・ドレスのマルチカテゴリ仮想試着へ一般化し、視覚的リアリズムと意味論的正確さをどの程度保持できるか?
主な発見
| Method | SSIM | FID | LPIPS | mIoU | HE |
|---|---|---|---|---|---|
| PF-AFN | 0.8858 | 9.475 | 0.0871 | 0.8412 | 14.9% |
| FS-VTON | 0.8829 | 9.552 | 0.0906 | 0.8357 | 8.80% |
| HR-VITON | 0.8623 | 16.21 | 0.1094 | 0.6949 | 9.10% |
| SDAFN | 0.8821 | 9.400 | 0.0922 | 0.5927 | 16.3% |
| GP-VTON (Ours) | 0.8939 | 9.197 | 0.0799 | 0.8764 | 50.9% |
- GP-VTON は VITON-HD および DressCode に対して SSIM、FID、LPIPS、mIoU の指標で一貫してベースラインを上回る。
- G-P-VTON は ベースラインより顕著な mIoU の改善(0.8764)、HE スコア(50.9%)を達成し、意味論的正確さと知覚的リアリズムが向上。
- アブレーションにより、局所フローがグローバルフローより SSIM/LPIPS および mIoU を改善し、グローバルパースは重なりアーチファクトを効果的に排除する。
- Dynamic Gradient Truncation (DGT) はテクスチャの歪みを低減し、固定的 GT 戦略と比べて R_diff が低く、テクスチャ保持が向上。
- このアプローチは高解像度ベンチマーク全体で有効であり、マルチカテゴリ VTON への潜在性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。