Skip to main content
QUICK REVIEW

[논문 리뷰] GIFT: Learning Transformation-Invariant Dense Visual Descriptors via Group CNNs

Yuan Liu, Zehong Shen|arXiv (Cornell University)|2019. 11. 13.
Advanced Image and Video Retrieval Techniques참고 문헌 35인용 수 45
한 줄 요약

GIFT는 변환에 불변인 밀집 디스크립터를 도입하며, 변환된 이미지에서 추출된 특징에 대해 그룹 컨볼루션을 사용하는 변환-불변 디스크립터를 제공하고, 고밀도 매칭에 대해 판별적이고 증명 가능한 불변 디스크립터를 밀집 매칭에 사용하고 상대 자세 추정 성능을 향상시킨다.

ABSTRACT

Finding local correspondences between images with different viewpoints requires local descriptors that are robust against geometric transformations. An approach for transformation invariance is to integrate out the transformations by pooling the features extracted from transformed versions of an image. However, the feature pooling may sacrifice the distinctiveness of the resulting descriptors. In this paper, we introduce a novel visual descriptor named Group Invariant Feature Transform (GIFT), which is both discriminative and robust to geometric transformations. The key idea is that the features extracted from the transformed versions of an image can be viewed as a function defined on the group of the transformations. Instead of feature pooling, we use group convolutions to exploit underlying structures of the extracted features on the group, resulting in descriptors that are both discriminative and provably invariant to the group of transformations. Extensive experiments show that GIFT outperforms state-of-the-art methods on several benchmark datasets and practically improves the performance of relative pose estimation.

연구 동기 및 목표

  • 다양한 시점에 걸친 기하학적 변환에 로버스트한 로컬 디스크립터의 필요성을 제시한다.
  • 변환 그룹에 대해 불변하면서도 판별력을 유지하는 디스크립터를 제안한다.
  • 변환된 이미지로부터 그룹 특징을 구성하고 이를 group CNNs로 임베딩하는 파이프라인을 개발한다.
  • 그룹 컨볼루션과 바이리니어 풀링을 통해 증명 가능한 불변성을 보인다.
  • 표준 데이터셋과 극변 변화 데이터셋에서 최첨단 성능을 입증한다.

제안 방법

  • 그룹 G의 변환 그리드(회전 및 스케일링)를 사용하여 입력 이미지를 왜곡한다.
  • 각 변환된 이미지에서 기본 CNN으로 특징을 추출하여 각 지점에서 G 전체에 대해 그룹 특징 f0(g)를 형성한다.
  • f0를 두 개의 group CNN(alpha, beta)로 처리하여 등가성을 보존하면서 f_l,alpha와 f_l,beta를 얻는다(그룹 컨볼루션 계층).
  • 두 그룹-CNN 출력에 바이리니어 풀링을 적용하여 최종 GIFT 디스크립터 d를 형성하고, 길이가 1이 되도록 정규화한다.
  • 정확한 매치를 장려하기 위해 하드 네거티브 마이닝을 사용한 트립렛 손실로 학습한다.
  • 계산을 용이하게 하기 위해 샘플링된 그룹 원소를 사용하고 이산 그룹 풀링을 적용하여 불변을 달성한다.

실험 결과

연구 질문

  • RQ1로컬 디스크립터를 변환 그룹에 대해 불변하게 만들면서도 판별력을 희생하지 않으려면 어떻게 해야 하는가?
  • RQ2변환 그룹 위에서 정의된 특징에 대한 그룹 컨볼루션이 등가성을 보존하고 불변 밀집 디스크립터를 가능하게 할 수 있는가?
  • RQ3큰 시점 변화 및 외관 변화에서 GIFT가 밀집 및 희소 매칭은 물론 상대 자세 추정에 향상을 제공하는가?

주요 결과

  • GIFT는 고려된 변환 그룹에 대해 판별적이고 증명 가능한 불변 디스크립터를 생성하여 벤치마크 데이터셋에서 전통적 및 학습된 디스크립터를 능가한다.
  • 두 group-CNN 출력의 바이리니어 풀링은 다른 풀링 방식보다 견고한 불변성과 더 풍부한 통계를 제공합니다.
  • 그룹 컨볼루션 계층 수를 늘리면 제거 실험에서 성능이 향상되며; 실험에 사용된 GIFT-6은 강력한 성능을 보인다.
  • GIFT는 극단적 스케일 및 방향 변화에 대한 강건성을 보여주며 실제 데이터(GIFT-F)에 대해 미세조정하면 상대 자세 추정이 향상된다.
  • 해당 구현은 480x360 이미지에서 1024 관심점에 대해 GTX 1080 Ti에서 약 65.2 ms를 소요하여 실용적 속도를 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.