[论文解读] Unsupervised Semantic Correspondence Using Stable Diffusion
本文提出了一种利用 Stable Diffusion 的无监督语义对应方法,在多个数据集上取得有竞争力的 PCK 分数,并较先前的无监督基线实现提升。
Text-to-image diffusion models are now capable of generating images that are often indistinguishable from real images. To generate such images, these models must understand the semantics of the objects they are asked to generate. In this work we show that, without any training, one can leverage this semantic knowledge within diffusion models to find semantic correspondences - locations in multiple images that have the same semantic meaning. Specifically, given an image, we optimize the prompt embeddings of these models for maximum attention on the regions of interest. These optimized embeddings capture semantic information about the location, which can then be transferred to another image. By doing so we obtain results on par with the strongly supervised state of the art on the PF-Willow dataset and significantly outperform (20.9% relative for the SPair-71k dataset) any existing weakly or unsupervised method on PF-Willow, CUB-200 and SPair-71k datasets.
研究动机与目标
- 通过生成扩散模型激发无监督的语义对应。
- 提出一种在 Stable Diffusion 指引下的嵌入优化方法,以对齐跨图像的语义部分。
- 在标准基准(CUB-200、PF-Willow、SPair-71k)上,与监督和弱监督基线进行比较评估。
提出的方法
- 在 Stable Diffusion 潜在空间中优化嵌入,以对齐语义部分。
- 利用扩散模型的注意力图和代币级推理来定位对应区域。
- 在跨数据集使用 PCK 指标,与强监督、弱监督以及无监督基线进行比较。

实验结果
研究问题
- RQ1在没有显式监督的情况下,使用基于扩散的嵌入可以多准确地实现无监督语义对应?
- RQ2基于扩散的表示相对于现有无监督和弱监督方法,在标准基准上是否提供有竞争力的 PCK 性能?
- RQ3代币级注意力和优化嵌入对对应准确性的影响是什么?
- RQ4在 CUB-200、PF-Willow 和 SPair-71k 上,所提方法相对于 DINO+MLS、VGG+MLS 和 PWarpC-NC-Net 等基线的排名如何?
主要发现
- 我们的方法在 CUB-200 上达到 61.6 PCK@0.05 和 77.5 PCK@0.1。
- 在 PF-Willow 上达到 53.0 PCK@0.05 和 84.3 PCK@0.1。
- 在 SPair-71k 上达到 28.9 PCK@0.05 和 45.4 PCK@0.1。
- 与先前的无监督基线(DINO+NN)相比,我们的方法在所考虑的数据集上改进了报道的分数。
- 表格显示跨数据集的竞争性性能,在某些指标上在 PF-Willow 和 SPair-71k 上有显著提升。
- PWarpC-NC-Net 及其他基线表现各有千秋;我们的方法在多项无监督基线之上整体排名更高。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。