QUICK REVIEW

[论文解读] OpenVTON-Bench: A Large-Scale High-Resolution Benchmark for Controllable Virtual Try-On Evaluation

Jin Li, Tao Chen|arXiv (Cornell University)|Jan 30, 2026

Generative Adversarial Networks and Image Synthesis被引用 0

一句话总结

OpenVTON-Bench 引入了一个大规模、高分辨率的 VTON 基准，以及一个将 Vision-Language Model（VLM）语义推理与多尺度表示度量相结合的混合评估协议，以更好地与人类判断保持一致并诊断纹理与边界错误。

ABSTRACT

Recent advances in diffusion models have significantly elevated the visual fidelity of Virtual Try-On (VTON) systems, yet reliable evaluation remains a persistent bottleneck. Traditional metrics struggle to quantify fine-grained texture details and semantic consistency, while existing datasets fail to meet commercial standards in scale and diversity. We present OpenVTON-Bench, a large-scale benchmark comprising approximately 100K high-resolution image pairs (up to $1536 imes 1536$). The dataset is constructed using DINOv3-based hierarchical clustering for semantically balanced sampling and Gemini-powered dense captioning, ensuring a uniform distribution across 20 fine-grained garment categories. To support reliable evaluation, we propose a multi-modal protocol that measures VTON quality along five interpretable dimensions: background consistency, identity fidelity, texture fidelity, shape plausibility, and overall realism. The protocol integrates VLM-based semantic reasoning with a novel Multi-Scale Representation Metric based on SAM3 segmentation and morphological erosion, enabling the separation of boundary alignment errors from internal texture artifacts. Experimental results show strong agreement with human judgments (Kendall's $τ$ of 0.833 vs. 0.611 for SSIM), establishing a robust benchmark for VTON evaluation.

研究动机与目标

解决高保真 VTON 生成与在商业环境中可靠评估之间的错位问题。
提供一个大规模、多样化、高分辨率的基准，用以在超越工作室场景的条件下对现代 VTON 方法进行压力测试。
引入一个将语义推理与结构验证相结合的混合评估协议。
提供细粒度、可解释的轴向，用于诊断超越单一标量分数的 VTON 失败。

提出的方法

构建约 10^5 的高分辨率 VTON 数据集（最高到 1536^2），在 20 种服装类别上实现语义均衡采样。
使用基于 DINOv3 的分层聚类进行语义感知筛选，并通过分层抽样实现类别平衡和纹理多样性。
采用 Gemini 驱动的密集描述生成，结合分层提示策略，生成丰富的服装描述。
采用将 VLM 基于语义判断与使用 SAM3 掩模和形态腐蚀的多尺度表示度量相融合的混合评估协议。
定义一个五轴评估框架（背景、身份、纹理、形状、真实性）以分解 VTON 质量。

实验结果

研究问题

RQ1当前的 VTON 方法在高分辨率、语义多样、接近真实世界的数据上表现如何？
RQ2基于 VLM 的语义判断和结构感知指标是否与人类感知对 VTON 的判断一致？
RQ3一个多尺度、掩模引导的表示度量是否能将边界错误与内部纹理伪影在 VTON 输出中区分开来？
RQ4传统像素级和分布级评估在评估高保真 VTON 时有哪些局限？

主要发现

基于 VLM 的语义分数在大多数维度上与人类判断高度一致，表明 VLM 可以作为 VTON 真实感与身份的可扩展评判标准。
存在显著的纹理-真实感差距：扩散模型在照片级真实感方面表现出色，但在保持服装纹理的细粒度方面存在困难。
提出的表示基度量结合逐步腐蚀的方法能够可靠地区分边界与内部纹理保真度，并与人类判断相关。
全局与局部评估显示高全局一致性可能掩盖局部服装细节失败，强调需要局部化度量。
表示基相似度与人类偏好之间的相关性最强（如 Kendall’s tau = 0.833 用于排序），优于传统度量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。