Skip to main content
QUICK REVIEW

[论文解读] Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

Jiin Im, Sisung Liu|arXiv (Cornell University)|Mar 12, 2026
3D Shape Modeling and Analysis被引用 0
一句话总结

Shape-of-You (SoY) 使用融合的 Gromov-Wasserstein OT 框架,结合 3D 几何提升,生成几何感知的伪标签,训练轻量级适配器以实现对鲁棒语义对应的无显式几何注释,同时在 SPair-71k 和 AP-10k 上达到最新结果。

ABSTRACT

Semantic correspondence is essential for handling diverse in-the-wild images lacking explicit correspondence annotations. While recent 2D foundation models offer powerful features, adapting them for unsupervised learning via nearest-neighbor pseudo-labels has key limitations: it operates locally, ignoring structural relationships, and consequently its reliance on 2D appearance fails to resolve geometric ambiguities arising from symmetries or repetitive features. In this work, we address this by reformulating pseudo-label generation as a Fused Gromov-Wasserstein (FGW) problem, which jointly optimizes inter-feature similarity and intra-structural consistency. Our framework, Shape-of-You (SoY), leverages a 3D foundation model to define this intra-structure in the geometric space, resolving abovementioned ambiguity. However, since FGW is a computationally prohibitive quadratic problem, we approximate it through anchor-based linearization. The resulting probabilistic transport plan provides a structurally consistent but noisy supervisory signal. Thus, we introduce a soft-target loss dynamically blending guidance from this plan with network predictions to build a learning framework robust to this noise. SoY achieves state-of-the-art performance on SPair-71k and AP-10k datasets, establishing a new benchmark in semantic correspondence without explicit geometric annotations. Code is available at Shape-of-You.

研究动机与目标

  • 在野外图像中不使用显式几何注释的情况下推动语义对应。
  • 通过引入全局结构来解决 2D 外观基础最近邻伪标签的局限性。
  • 将伪标签生成形式化为 FGW,并通过基于锚点的线性化来降低计算成本。
  • 用软目标损失训练一个轻量级适配器网络,以处理嘈杂的伪标签。

提出的方法

  • 定义具有语义特征和从 3D 基础模型提升的 3D 坐标的图像补丁集合。
  • 使用 2D 特征的余弦相似度作为锚点,计算初始的语义不平衡 OT(UOT)计划。
  • 通过 3D 结构内距离和 K 个锚点(K=64)对 GW 成本进行基于锚点的线性化,迭代优化。
  • 将语义成本与线性化的几何成本融合成 UOT 的总成本,以获得更精细的传输计划。
  • 使用来自概率传输计划的软目标损失来训练轻量级适配器,并以密集对应损失进行监督。

实验结果

研究问题

  • RQ1伪标签生成如何同时利用特征间相似性与内部结构(3D)一致性来提升语义对应?
  • RQ2将 2D 特征提升到 3D 几何是否能在不需要显式 3D 注释的情况下提高对几何歧义(如遮挡、视角变化)的鲁棒性?
  • RQ3基于锚点的 GW 线性化是否能提供一个可行且有效的几何感知监督近似?
  • RQ4来自概率传输计划的软目标损失是否能在嘈杂伪标签下提升学习效果?

主要发现

  • SoY 在 SPair-71k 的 PCK@0.1 达到 67.9%,在 intra-species 的 AP-10k 为 68.0%,达到最新水平。
  • SoY 在 18 个 SPair-71k 类别中达到最佳或第二最佳表现的类别数量为 17 个。
  • 内部结构消融表明 3D 几何距离在伪标签质量方面优于 2D 或纯语义内部结构。
  • 基于锚点的 FGW 与循环一致性锚点选择提升了对几何歧义的鲁棒性。
  • 最终学习得到的适配器在推理阶段提供几何感知的匹配,无需迭代优化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。