QUICK REVIEW

[논문 리뷰] Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

Jiin Im, Sisung Liu|arXiv (Cornell University)|2026. 03. 12.

3D Shape Modeling and Analysis인용 수 0

한 줄 요약

Shape-of-You (SoY)는 3D 기하학적 라이프팅을 갖춘 융합된 Gromov-Wasserstein OT 프레임워크를 사용해 기하학 정보를 반영한 의사라벨을 생성하고, 명시적 기하 주석 없이 견고한 의미적 대응을 위한 경량 어댑터를 학습하여 SPair-71k 및 AP-10k에서 최첨단 성능을 달성한다.

ABSTRACT

Semantic correspondence is essential for handling diverse in-the-wild images lacking explicit correspondence annotations. While recent 2D foundation models offer powerful features, adapting them for unsupervised learning via nearest-neighbor pseudo-labels has key limitations: it operates locally, ignoring structural relationships, and consequently its reliance on 2D appearance fails to resolve geometric ambiguities arising from symmetries or repetitive features. In this work, we address this by reformulating pseudo-label generation as a Fused Gromov-Wasserstein (FGW) problem, which jointly optimizes inter-feature similarity and intra-structural consistency. Our framework, Shape-of-You (SoY), leverages a 3D foundation model to define this intra-structure in the geometric space, resolving abovementioned ambiguity. However, since FGW is a computationally prohibitive quadratic problem, we approximate it through anchor-based linearization. The resulting probabilistic transport plan provides a structurally consistent but noisy supervisory signal. Thus, we introduce a soft-target loss dynamically blending guidance from this plan with network predictions to build a learning framework robust to this noise. SoY achieves state-of-the-art performance on SPair-71k and AP-10k datasets, establishing a new benchmark in semantic correspondence without explicit geometric annotations. Code is available at Shape-of-You.

연구 동기 및 목표

명시적 기하 주석 없이 야생 이미지에서 의미적 대응을 촉진한다.
전역 구조를 통합하여 2D 외관 기반 최근접 이웃 의사라벨의 한계를 보완한다.
의사라벨 생성을 FGW로 공식화하고 앵커 기반 선형화를 통해 계산 비용을 완화한다.
잡음이 있는 의사라벨을 다루기 위해 소프트 타깃 손실을 갖춘 경량 어댑터 네트워크를 학습한다.

제안 방법

3D 기초 모델에서 리프팅된 의미 특징과 3D 좌표를 가진 이미지의 패치 집합을 정의한다.
앵커로서 2D 특징 간 코사인 유사성을 사용하여 초기 의미적 비대칭 OT(UOT) 플랜을 계산한다.
3D 내부 구조 거리와 K 앵커(K=64)를 사용한 GW 비용의 앵커 기반 선형화를 통해 반복적으로 정제한다.
의미 비용과 선형화된 기하 비용을 합쳐 UOT의 총 비용으로 하여 정제된 수송 계획을 얻는다.
확률적 수송 계획에서 도출된 소프트 타깃 손실을 사용한 경량 어댑터를 학습하고, 감독을 위한 밀집 대응 손실을 함께 사용한다.

실험 결과

연구 질문

RQ1의미적 대응을 위한 의사라벨 생성을 특징 간 유사성 및 내부 구조적(3D) 일관성 모두 활용하려면 어떻게 할 수 있는가?
RQ22D 특징을 3D 기하로 리프팅하는 것이 명시적 3D 주석 없이도 기하 모호성(예: 가려짐, 시점 변화)에 대한 강인성을 향상시키는가?
RQ3앵커 기반 GW 선형화가 기하 인식 감독을 위한 적용 가능하고 효과적인 근사를 제공할 수 있는가?
RQ4확률적 수송 계획에서 도출된 소프트 타깃 손실이 잡음이 있는 의사라벨에서 학습을 개선하는가?

주요 결과

SoY는 SPair-71k에서 PCK@0.1로 67.9%, AP-10k 내부 종에서 68.0%의 최첨단 성능을 달성한다.
SoY는 SPair-71k의 18개 카테고리 중 17개에서 최고 혹은 두 번째로 좋은 성능을 달성한다.
내부 구조 실험에서 3D 기하 거리가 의사라벨 품질 측면에서 2D 또는 순수 의미적 내부 구조보다 우수함을 보여준다.
사이클 일관된 앵커 선택을 갖춘 앵커 기반 FGW가 기하 모호성에 대한 강인성을 향상시킨다.
최종 학습된 어댑터는 추론 시 기하적으로 정보에 기반한 매칭을 제공하며 반복 최적화가 필요 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.