[論文レビュー] OpenVTON-Bench: A Large-Scale High-Resolution Benchmark for Controllable Virtual Try-On Evaluation
OpenVTON-Bench は大規模・高解像度の VTON ベンチマークと、VLM のセマンティック推論と Multi-Scale Representation Metric を統合したハイブリッド評価プロトコルを導入し、人間の判断と整合性を高め、テクスチャと境界エラーを診断する。
Recent advances in diffusion models have significantly elevated the visual fidelity of Virtual Try-On (VTON) systems, yet reliable evaluation remains a persistent bottleneck. Traditional metrics struggle to quantify fine-grained texture details and semantic consistency, while existing datasets fail to meet commercial standards in scale and diversity. We present OpenVTON-Bench, a large-scale benchmark comprising approximately 100K high-resolution image pairs (up to $1536 \times 1536$). The dataset is constructed using DINOv3-based hierarchical clustering for semantically balanced sampling and Gemini-powered dense captioning, ensuring a uniform distribution across 20 fine-grained garment categories. To support reliable evaluation, we propose a multi-modal protocol that measures VTON quality along five interpretable dimensions: background consistency, identity fidelity, texture fidelity, shape plausibility, and overall realism. The protocol integrates VLM-based semantic reasoning with a novel Multi-Scale Representation Metric based on SAM3 segmentation and morphological erosion, enabling the separation of boundary alignment errors from internal texture artifacts. Experimental results show strong agreement with human judgments (Kendall's $τ$ of 0.833 vs. 0.611 for SSIM), establishing a robust benchmark for VTON evaluation.
研究の動機と目的
- 高忠実度 VTON 生成と商業的文脈での信頼性のある評価の間の不整合を解決する。
- スタジオ環境を超える現代的 VTON 手法をストレステストするための、大規模で多様かつ高解像度のベンチマークを提供する。
- セマンティック推論と構造的検証を組み合わせたハイブリッド評価プロトコルを導入する。
- 単一スカラーのスコアを超えた、VTON の失敗を診断するための細粒度で解釈可能な軸を提供する。
提案手法
- 約100K の高解像度 VTON データセットを構築する(最大1536^2)、20 の衣服カテゴリ across semantically balanced sampling.
- セマンティック認識フィルタリングと層別サンプリングを実現する DINOv3 ベースの階層的クラスタリングでカテゴリバランスと質感多様性を達成する。
- Gemini 搭載の密集キャプション生成を階層 prompting 戦略とともに用い、衣服の詳細な記述を生成する。
- VLMベースのセマンティック判断と Multi-Scale Representation Metric を統合するハイブリッド評価プロトコルを採用し、SAM3 マスクと形態的エロージョンを用いる。
- 背景・アイデンティティ・質感・形状・リアリズムの五軸評価フレームワークを定義し、VTON の品質を分解する。
実験結果
リサーチクエスチョン
- RQ1現在の VTON 手法は高解像度でセマンティックに多様で現実世界に近いデータでどのように性能を発揮するか?
- RQ2VLMベースのセマンティック判断と構造認識に基づく指標は VTON の人間の知覚判断と整合するか?
- RQ3マルチスケールでマスク誘導された表現指標は、境界誤差と内部のテクスチャアーティファクトを分離できるか?
- RQ4高忠実度を評価する従来のピクセルベース・分布ベース指標にはどのような限界があるか?
主な発見
- VLM ベースのセマンティックスコアはほとんどの次元で人間の判断と密接に一致し、VTON のリアリズムとアイデンティティを評価するスケーラブルな判断基準になり得ることを示唆している。
- 拡散モデルは写真リアリズムに長ける一方で、衣服の細かな質感を保持する点で課題があるという、質感とリアリズムのギャップが顕著である。
- 提案された表現ベースの指標は進行的エロージョンを用いて境界と内部質感の忠実度を信頼性高く区別し、人間の判断と相関する。
- グローバル評価とローカル評価の差から、高いグローバル一貫性が局所的な衣服ディテールの欠陥を隠す可能性があることが分かり、局所的な指標の必要性を強調している。
- 表現ベースの類似性は人間の好みとの相関が最も高く(例:ランキングの Kendall’s tau = 0.833)、従来指標より強い相関を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。