Skip to main content
QUICK REVIEW

[論文レビュー] Attention-Aware Generalized Mean Pooling for Image Retrieval

Yinzheng Gu, Chuanpeng Li|arXiv (Cornell University)|Nov 1, 2018
Advanced Image and Video Retrieval Techniques参考文献 22被引用数 26
ひとこと要約

本論文では、特徴の関連性を向上させるために、ResNet-101にソフトアテンション機構を統合したAttention-aware Generalized Mean (AGeM) プーリングを提案する。この手法は、微分可能なGeMプーリングを適用する前に特徴を強化し、ROxford5kおよびRParis6kベンチマークで最先端の性能を達成する。'Hard'評価プロトコル下でmAPはそれぞれ79.4%および82.1%を記録した。

ABSTRACT

It has been shown that image descriptors extracted by convolutional neural networks (CNNs) achieve remarkable results for retrieval problems. In this paper, we apply attention mechanism to CNN, which aims at enhancing more relevant features that correspond to important keypoints in the input image. The generated attention-aware features are then aggregated by the previous state-of-the-art generalized mean (GeM) pooling followed by normalization to produce a compact global descriptor, which can be efficiently compared to other image descriptors by the dot product. An extensive comparison of our proposed approach with state-of-the-art methods is performed on the new challenging ROxford5k and RParis6k retrieval benchmarks. Results indicate significant improvement over previous work. In particular, our attention-aware GeM (AGeM) descriptor outperforms state-of-the-art method on ROxford5k under the `Hard' evaluation protocal.

研究の動機と目的

  • 畳み込みニューラルネットワーク(CNN)におけるアテンション機構を用いて、判別的特徴を強化することで、画像検索性能を向上させること。
  • 検索に特化した最適化が行われていないオフザシェルCNN特徴の限界を解消すること。
  • エンドツーエンドで学習可能な形でアテンションとGeMプーリングを統合し、コンactなグローバル記述子を生成すること。
  • 複雑な局所特徴パイプラインや空間的検証に依存せずに、競争力のある性能を達成すること。

提案手法

  • 主ブランチにResNet-101を、アテンションブランチに早期のブロックからの特徴マップに追加層を適用する2ブランチネットワークを採用する。
  • 残差学習を用いたソフトアテンションにより、アテンションマップとベース特徴を融合し、関連する領域やキーポイントを強調する。
  • 共有パラメータpを有する微分可能な一般化平均(GeM)プーリングを適用し、アテンションに配慮した特徴を2048次元の記述子に集約する。
  • 効率的なドット積比較のため、最終的な記述子をℓ²正規化する。
  • mAPのさらなる向上を図るため、重み付きスキーム(α-QE、β-DBA)を用いたクエリ拡張(QE)およびデータベース拡張(DBA)を採用する。
  • バックプロパゲーションを用いて、追加コストを最小限に抑えながら、ネットワーク全体をエンドツーエンドで学習する。

実験結果

リサーチクエスチョン

  • RQ1アテンション機構を用いることで、意味的に重要な領域やキーポイントに注目することで、CNNベースの画像検索性能が向上するか?
  • RQ2アテンションとGeMプーリングを統合することで、標準的なGeMやプーリングベースラインよりも優れたグローバル記述子が得られるか?
  • RQ3局所特徴と幾何的検証に依存する最先端の手法と比較して、提案手法AGeMはどのように性能を発揮するか?
  • RQ4AGeM記述子を用いる際、クエリ拡張とデータベース拡張の最適な設定は何か?

主な発見

  • AGeM記述子は、'Hard'プロトコル下でROxford5kで79.4%のmAPを達成し、以前の最先端手法を上回った。
  • RParis6kでも'Hard'プロトコル下で82.1%のmAPを達成し、すべての先行CNNベース手法を上回り、複雑な局所特徴パイプラインと同等の性能を示した。
  • AGeMとβ-DBA、α-QEの組み合わせにより、RParis6kで82.1%のmAPを達成し、重み付き後処理の有効性を示した。
  • アテンションブランチが軽量でバックプロパゲーションで学習可能であるため、計算コストの増加を最小限に抑えながら優れた性能を達成した。
  • 後処理なしでも、AGeMはROxford5kにおける元のGeMおよびDIR手法を上回ったことから、強力な内在的特徴学習能力を示した。
  • アブレーションスタディの結果、β-DBAを用いる際にはα = 0(つまり平均QE)が最適であることが確認され、クエリ側の修正には単純な平均化で十分であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。