[논문 리뷰] Emergent Correspondence from Image Diffusion
이 논문은 확산 모델이 암묵적으로 픽셀 대응을 학습한다는 것을 보여주고, 지도 학습 없이 실사진에서 의미적, 기하학적, 시간적 대응을 확립하기 위해 Diffusion Features (DIFT)를 도입한다.
Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowledge out of diffusion networks as image features, namely DIffusion FeaTures (DIFT), and use them to establish correspondences between real images. Without any additional fine-tuning or supervision on the task-specific data or annotations, DIFT is able to outperform both weakly-supervised methods and competitive off-the-shelf features in identifying semantic, geometric, and temporal correspondences. Particularly for semantic correspondence, DIFT from Stable Diffusion is able to outperform DINO and OpenCLIP by 19 and 14 accuracy points respectively on the challenging SPair-71k benchmark. It even outperforms the state-of-the-art supervised methods on 9 out of 18 categories while remaining on par for the overall performance. Project page: https://diffusionfeatures.github.io
연구 동기 및 목표
- 이미지 확산 모델이 명시적 감독 없이도 대응 관계를 학습한다는 것을 입증한다.
- 실사진에 대해 사전 학습된 확산 모델에서 밀집 확산 기반 특징(DIFT)을 추출한다.
- 의미적, 기하학적 및 시간적 대응 벤치마크에서 DIFT를 평가하고 자체 감독 학습 및 감독 방법과 비교한다.
- 편집 전파 및 도메인 간 매칭과 같은 실용적 응용을 보여준다.
제안 방법
- 역확산 과정에서 중간 계층 활성화를 추출하기 위해 사전 학습된 확산 모델(Stable Diffusion 2-1 및 Ablated Diffusion Model)을 사용한다.
- 실사진 특징을 확산 타임스텝 t에 도달하도록 노이즈를 추가한 후 이를 확산 모델에 통과시켜 DIFT를 얻어 근사화한다.
- 의미적 정보와 저수준 정보를 균형 있게 조정하기 위해 각 작업별로 2D 격자 탐색을 통해 타임 스텝 t와 네트워크 계층을 선택한다.
- 안정성을 높이기 위해 여러 개의 노이즈가 추가된 구현으로부터 특징을 평균화한다.
- 픽셀 특징 간 코사인 거리를 이용한 최근접 이웃 매칭을 수행하여 대응 관계를 확립한다.
- 미세 조정이나 감독 없이 의미적, 기하학적 및 시간적 대응 벤치마크 전반을 평가한다.

실험 결과
연구 질문
- RQ1이미지 합성을 위해 학습된 확산 모델이 교차 이미지 매칭에 유용한 픽셀 수준의 대응을 암묵적으로 학습할 수 있는가?
- RQ2교차 작업을 위한 미세 조정 없이 확산 모델에서 밀집한 실사진 특징을 어떻게 추출할 수 있는가?
- RQ3의미적, 기하학적 및 시간적 대응 작업에 대해 최적의 확산 타임스텝 t와 계층은 무엇인가?
- RQ4표준 대응 벤치마크에서 DIFT가 자체 감독 및 감독 방법과 어떻게 비교되는가?
- RQ5DIFT가 편집 전파 및 비디오/객체 추적과 같은 작업을 감독 없이 가능하게 하는가?
주요 결과
- DIFT는 실사진에서 특정 작업별 감독 없이도 강력한 의미적, 기하학적 및 시간적 대응을 가능하게 한다.
- SPair-71k에서 DIFT sd는 의미적 PCK에서 각각 19포인트, 14포인트 더 우수하며; 18개 카테고리 중 9개에서 의미적 대응에 대해 감독 학습 방법과 경쟁력이 있다.
- PF-WILLOW 및 SPair-71k 벤치마크에서 DIFT는 약한 지도 기반선 및 자체 감독 특징을 능가하며, 의미적 결과는 때때로 최첨단 감독 학습 방법을 능가한다.
- HPatches에서 DIFT는 강력한 기하학적 대응 성능을 제공하며, SuperPoint 키포인트를 사용할 때 기하학적 감독 방법과 비슷하다.
- 시간적 작업에서 DIFT는 비디오 특화 학습 없이 DAVIS-2017 및 JHMDB에서 최첨단 또는 강력한 결과를 달성하여 풍부한 도메인 간 일반화를 시사한다.
- 편집 전파 실험은 DIFT 기반 매칭이 OpenCLIP보다 교차 이미지 편집 정확도가 높음을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.