QUICK REVIEW

[論文レビュー] Virtual Try-On for Cultural Clothing: A Benchmarking Study

Muhammad Tausif Ul Islam, Shahir Awlad|arXiv (Cornell University)|Mar 7, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

本論文はBD-VITONを提案し、VITON-HD, HR-VITON, StableVITONの3つの最先端モデルをファインチューニングで評価。ゼロショット推論と比較して、文化的に多様な衣装での改善を示す。

ABSTRACT

Although existing virtual try-on systems have made significant progress with the advent of diffusion models, the current benchmarks of these models are based on datasets that are dominant in western-style clothing and female models, limiting their ability to generalize culturally diverse clothing styles. In this work, we introduce BD-VITON, a virtual try-on dataset focused on Bangladeshi garments, including saree, panjabi and salwar kameez, covering both male and female categories as well. These garments present unique structural challenges such as complex draping, asymmetric layering, and high deformation complexities which are underrepresented in the original VITON dataset. To establish strong baselines, we retrain and evaluate try-on models, namely StableViton, HR-VITON, and VITON-HD on our dataset. Our experiments demonstrate consistent improvements in terms of both quantitative and qualitative analysis, compared to zero shot inference.

研究の動機と目的

仮想試着における文化的に多様なトレーニングデータの欠如に対処するため、BD-VITONというバングラデシュ衣装データセットを導入する。
BD-VITON上で既存のVITONアーキテクチャをファインチューニングすることがゼロショット推定より性能向上をもたらすかを評価する。
現行の試着モデルにとって、サリー、パンジャビ、カミーズなど複雑な衣装構造がもたらす課題を分析する。
仮想試着を文化的に多様なファッション領域へ拡張するためのベースラインと洞察を提供する。

提案手法

サリー、パンジャビ、カミーズを男女両方に覆盖する1,013枚の対になった画像でBD-VITONを構築する（半分が訓練用、半分がテスト用）。
SEMANTIC解析のためにSCHP、FASHN Human Parser、SegFormer、OpenPose、DensePoseを活用した自動注釈パイプラインを開発し、衣装マスクとDensePoseガイダンスを提供。
BD-VITONへ適合させる形でVITON-HD、HR-VITON、StableVITONを適用し、セグメンテーション/生成コンポーネントの訓練スクリプトと損失式を整備する。
過学習を抑えつつドメイン横断学習を促進するデータ拡張戦略（衣装エッジノイズ、回転など）を導入する。
ペアド指標（SSIM、LPIPS）とアンペアドのFIDを用いて、構造的忠実度とリアリズムを評価する。

実験結果

リサーチクエスチョン

RQ1文化的に多様なBD-VITONデータセット上で既存の仮想試着モデルをファインチューニングするとゼロショット推論より改善するか？
RQ2西洋中心の試着アーキテクチャは、サリー、パンジャビ、カミーズといった複雑なバングラデシュ衣装の構造的忠実度とリアリズムにどう対応できるか？
RQ3データセット特有の拡張と注釈パイプラインが文化的衣装のモデル性能に与える影響は？
RQ4訓練後、どのモデルアーキテクチャ（拡散ベース vs TPSベース vs ミスアライメント対応）はBD-VITONへ最も汎化しやすいか？
RQ5BD-VITONをより広範な文化衣装タイプへ拡張する際の制約と潜在的な方向性は？

主な発見

Model	Zero-Shot	SSIM ↑	LPIPS ↓	FID ↓
HR-VITON	✓	0.478	0.675	259.25
HR-VITON	✗	0.815	0.156	42.92
StableVITON	✓	0.722	0.238	69.59
StableVITON	✗	0.732	0.219	50.40
VITON-HD	✓	0.813	0.244	100.07
VITON-HD	✗	0.868	0.154	49.89

すべてのモデルがBD-VITONでファインチューニング後にゼロショット推論を上回り、 cultura特有の訓練によって分布の不一致が緩和されることを示した。
HR-VITONはゼロショットで強い性能を示すが、衣服貼付の挙動によりペアなし設定で劣化する。拡張を伴う訓練は結果を改善。
StableVITONは拡散ベースで強力だが、訓練回数が少なく収束の問題により訓練後のパフォーマンスが最も低くなる可能性。
VITON-HDはセグメンテーションベースとTPSベースのワーピングの混合で安定した性能を維持し、拡散ベース手法と競合する結果を提供。
BD-VITONのテストセットにおける定量的なSSIM、LPIPS、FIDは、モデルと訓練対ゼロショット条件で異なる結果を示す（下の表を参照）。
定性的分析では、モデル固有の故障モードが明らかになる：HR-VITONはワープのずれを起こしやすい、VITON-HDは安定性を提供、StableVITONは十分な訓練がないと過適合の可能性。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。