Skip to main content
QUICK REVIEW

[논문 리뷰] Attention-Aware Generalized Mean Pooling for Image Retrieval

Yinzheng Gu, Chuanpeng Li|arXiv (Cornell University)|2018. 11. 01.
Advanced Image and Video Retrieval Techniques참고 문헌 22인용 수 26
한 줄 요약

이 논문은 ResNet-101에 소프트 어텐션 메커니즘을 통합하여 특징의 관련성을 향상시킨 후, 미분 가능한 GeM 풀링을 적용하는 Attention-aware Generalized Mean (AGeM) 풀링을 제안한다. 이 방법은 ROxford5k와 RParis6k 벤치마크에서 최신 기술 수준의 성능을 달성하며, 'Hard' 평가 프로토콜 하에서 각각 mAP 79.4%와 82.1%를 기록하여 이전의 CNN 기반 방법들을 능가한다.

ABSTRACT

It has been shown that image descriptors extracted by convolutional neural networks (CNNs) achieve remarkable results for retrieval problems. In this paper, we apply attention mechanism to CNN, which aims at enhancing more relevant features that correspond to important keypoints in the input image. The generated attention-aware features are then aggregated by the previous state-of-the-art generalized mean (GeM) pooling followed by normalization to produce a compact global descriptor, which can be efficiently compared to other image descriptors by the dot product. An extensive comparison of our proposed approach with state-of-the-art methods is performed on the new challenging ROxford5k and RParis6k retrieval benchmarks. Results indicate significant improvement over previous work. In particular, our attention-aware GeM (AGeM) descriptor outperforms state-of-the-art method on ROxford5k under the `Hard' evaluation protocal.

연구 동기 및 목표

  • CNN에서 어텐션 메커니즘을 통해 구분 능력 있는 특징을 향상시켜 이미지 검색 성능을 향상시키는 것.
  • 검색에 특화되지 않은 표준 CNN 특징의 한계를 해결하는 것.
  • 주의 기반 특징과 GeM 풀링을 종합적으로 통합하여 끝내기로 학습 가능한 방식으로 압축되고 정확한 글로벌 특징을 생성하는 것.
  • 복잡한 국소 특징 파ip라인이나 공간 검증에 의존하지 않고도 경쟁 가능한 성능을 달성하는 것.

제안 방법

  • 주 경로로 ResNet-101을 사용하고, 이전 블록의 특징 맵에 적용되는 추가 레이어를 가진 어텐션 경로를 포함하는 이중 경로 네트워크를 사용한다.
  • 잔차 학습을 통한 소프트 어텐션을 적용하여 어텐션 맵과 기본 특징을 융합함으로써 관련 영역과 관건점을 강조한다.
  • 공유된 파라미터 p를 가진 미분 가능한 일반화 평균(GeM) 풀링을 적용하여 어텐션 기반 특징을 2048D 디스크립터로 집계한다.
  • 효율적인 내적 곱 비교를 위해 최종 디스크립터를 ℓ² 정규화한다.
  • mAP 향상을 위해 가중치가 부여된 방법(α-QE, β-DBA)을 사용한 쿼리 확장(QE)과 데이터베이스 증강(DBA)을 적용한다.
  • 백프로파게이션을 통해 전체 네트워크를 종합적으로 끝내기로 학습하며, 계산 비용은 최소한으로 증가시킨다.

실험 결과

연구 질문

  • RQ1어느 정도 어텐션 메커니즘이 의미적으로 중요한 영역과 관건점을 집중시켜서 CNN 기반 이미지 검색 성능을 향상시킬 수 있는가?
  • RQ2GeM 풀링과 어텐션 기반 특징을 통합하면 표준 GeM 또는 풀링 기반 방법보다 더 나은 글로벌 디스크립터를 얻을 수 있는가?
  • RQ3국소 특징과 기하학적 검증에 의존하는 최신 기술 수준의 방법들과 비교해 AGeM 방법은 어떻게 성능을 냈는가?
  • RQ4AGeM 디스크립터를 사용할 때 쿼리 확장과 데이터베이스 증강의 최적 설정은 무엇인가?

주요 결과

  • AGeM 디스크립터는 'Hard' 프로토콜 하에서 ROxford5k에서 mAP 79.4%를 기록하며, 이전 최신 기술 수준의 방법을 능가한다.
  • RParis6k에서 'Hard' 프로토콜 하에 AGeM은 82.1% mAP를 기록하여 모든 이전의 CNN 기반 방법을 능가하고, 복잡한 국소 특징 파이프라인과도 동등한 성능을 달성한다.
  • AGeM과 β-DBA, α-QE의 조합은 RParis6k에서 82.1% mAP를 기록하여 가중치가 부여된 후처리의 효과를 입증한다.
  • 주의 경로가 경량이면서 백프로파게이션을 통해 학습 가능하므로, 계산 비용은 최소한으로 유지하면서도 뛰어난 성능을 달성한다.
  • 후처리 없이도 AGeM은 ROxford5k에서 원본 GeM 및 DIR 방법보다 뛰어난 성능을 보이며, 강력한 내재적 특징 학습 능력을 보여준다.
  • 절단 분석 결과, β-DBA를 사용할 경우 α = 0(즉, 평균 QE)가 최적임을 확인하여 쿼리 측 개선에 단순 평균화로도 충분함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.