Skip to main content
QUICK REVIEW

[논문 리뷰] Recurrent Transformer Networks for Semantic Correspondence

Seungryong Kim, Stephen Lin|arXiv (Cornell University)|2018. 10. 29.
Advanced Image and Video Retrieval Techniques참고 문헌 36인용 수 49
한 줄 요약

RTNs는 이미지 쌍 간의 국부적으로 변하는 기하학적 변환을 직접 추정하고 특징을 반복적으로 정렬하여 밀집된 의미적 대응을 얻으며, 약지도 분류 손실로 학습된다.

ABSTRACT

We present recurrent transformer networks (RTNs) for obtaining dense correspondences between semantically similar images. Our networks accomplish this through an iterative process of estimating spatial transformations between the input images and using these transformations to generate aligned convolutional activations. By directly estimating the transformations between an image pair, rather than employing spatial transformer networks to independently normalize each individual image, we show that greater accuracy can be achieved. This process is conducted in a recursive manner to refine both the transformation estimates and the feature representations. In addition, a technique is presented for weakly-supervised training of RTNs that is based on a proposed classification loss. With RTNs, state-of-the-art performance is attained on several benchmarks for semantic correspondence.

연구 동기 및 목표

  • 큰 클래스 내 변이가 있는 의미적으로 유사한 이미지들 간의 밀집 대응을 촉진한다.
  • 각 이미지를 개별적으로 정규화하는 대신 쌍 간 기하학적 변형을 직접 추정하는 방법을 제안한다.
  • 반복적으로 변환 추정과 특징 표현을 정교화하는 순환 아키텍처를 개발한다.
  • 원천 소스와 기하학적으로 정렬된 대상 특징 간의 분류 손실을 통해 실제 변환 맵이 없는 약지도 학습을 가능하게 한다.

제안 방법

  • RTNs를 특징 추출 네트워크와 매개변 공유 가중치를 가진 기하학적 매칭 네트워크로 분할한다.
  • 로컬 검색 창(local search window)에서 상관 부피를 계산하여 밀집 형태변환 필드를 추정한다.
  • 기하학 및 정렬된 특징을 정교화하기 위해 잔차 변환 필드를 반복적으로 예측한다 (K_max 반복).
  • 현재 추정된 기하학을 사용해 대상 특징을 변환하고, 전체 이미지의 특징을 재사용하여 업데이트된 특징을 효율적으로 추출한다.
  • 정답 변환에 대해 가장 높은 유사성을, 다른 변환에 대해서는 낮은 유사성을 유도하는 약지도 분류 손실로 학습한다.

실험 결과

연구 질문

  • RQ1RTNs가 ground-truth 변환 맵 없이도 이미지 쌍으로부터 로컬하게 변하는 어파인 필드를 직접 학습할 수 있는가?
  • RQ2기하학 및 특징의 재귀적 정제가 단일 패스 방법보다 의미 대응 정확도를 향상시키는가?
  • RQ3분류 손실을 통한 약지도 학습이 기하학적 필드와 특징 표현의 학습에 어떤 영향을 미치는가?

주요 결과

  • RTNs는 약지도 및 지도 방법 모두와 비교하여 의미 대응 벤치마크에서 최첨단 성능을 달성한다.
  • 제시된 데이터셋에서 3–5회 반복 내에 수렴하며, 더 큰 검색 창은 어느 정도까지는 정확도를 향상시킨다.
  • 공동으로 학습된 특징 추출 네트워크와 기하학적 매칭 네트워크가 고정된 사전 학습 백본보다 우수한 성능을 보인다.
  • 로컬하게 변하는 기하학 추정이 전역적으로 변하는 접근법보다 더 정밀한 위치 추정을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.