Skip to main content
QUICK REVIEW

[論文レビュー] Particular object retrieval with integral max-pooling of CNN activations

Giorgos Tolias, Ronan Sicre|arXiv (Cornell University)|Nov 18, 2015
Advanced Image and Video Retrieval Techniques参考文献 45被引用数 674
ひとこと要約

本論文は、コンpactなCNNベースの特徴表現を提案し、畳み込み特徴の統合マックスプーリングを用いて、特に特定物体検出のための効率的な局所化と再ランク付けを実現する。一般化平均プーリングと統合画像を活用することで、Oxford5kおよびParis6kで最先端の性能を達成し、従来のCNNベースの手法を上回り、従来の局所特徴手法と競合する。

ABSTRACT

Recently, image representation built upon Convolutional Neural Network (CNN) has been shown to provide effective descriptors for image search, outperforming pre-CNN features as short-vector representations. Yet such models are not compatible with geometry-aware re-ranking methods and still outperformed, on some particular object retrieval benchmarks, by traditional image search systems relying on precise descriptor matching, geometric re-ranking, or query expansion. This work revisits both retrieval stages, namely initial search and re-ranking, by employing the same primitive information derived from the CNN. We build compact feature vectors that encode several image regions without the need to feed multiple inputs to the network. Furthermore, we extend integral images to handle max-pooling on convolutional layer activations, allowing us to efficiently localize matching objects. The resulting bounding box is finally used for image re-ranking. As a result, this paper significantly improves existing CNN-based recognition pipeline: We report for the first time results competing with traditional methods on the challenging Oxford5k and Paris6k datasets.

研究の動機と目的

  • CNNベースの特徴が幾何学的感度のある再ランク付けおよびクエリ拡張手法と互換性に欠けるという限界を解決すること。
  • CNNの1回の順伝播のみで特定物体の効率的な局所化を可能にすること。
  • 畳み込み特徴から得られる統一された表現を開発し、初期フィルタリングと再ランク付けの両方をサポートすること。
  • 局所特徴マッチングに依存せずに、Oxford5kやParis6kのようなベンチマークデータセットでコンパクトなCNN特徴を用いて検索性能を向上させること。

提案手法

  • 事前に訓練されたCNNの特徴マップにおける複数の領域に注目し、統合マックスプーリングを適用することで、コンパクトな画像表現を導入する。
  • 2次元特徴マップにおけるマックスプーリング操作を高速かつ微分可能に可能にするために、統合画像の概念を拡張する。
  • 一般化平均プーリング(α=2)を用いることで、マックスプーリングと統合画像の併用を可能にし、活性化に基づく類似度スコアの効率的計算を実現する。
  • 局所化された特徴を用いて、トップアクティベート領域を活用する新しいクエリ拡張法(AML)により再ランク付けを実行する。
  • グローバル特徴ベクトルのみを保存し、推論時に統合マックスプーリング機構を用いて動的に領域レベルの特徴を抽出する。
  • 初期フィルタリング段階で使用された同じCNN特徴を活用する再ランク付けパイプラインと、コンパクトな表現を統合する。

実験結果

リサーチクエスチョン

  • RQ11つのCNN特徴表現が、特定物体検索における初期フィルタリングと幾何学的感度のある再ランク付けの両方をサポートできるか?
  • RQ2畳み込み特徴の上での統合マックスプーリングが、複数回のネットワーク推論を必要とせずに、効率的かつ正確な物体局所化を可能にするか?
  • RQ3一般化平均プーリングを用いることで、マックスプーリングと統合画像を併用し、CNN特徴マップにおける高速な局所化が可能になるか?
  • RQ4コンパクトな特徴と再ランク付けを備えたCNNベースのシステムが、Oxford5k や Paris6k といった標準ベンチマークで、従来の局所特徴ベースの手法を上回る性能を発揮できるか?

主な発見

  • 統合マックスプーリングを用いた提案手法R-MACは、Oxford5kで77.0% mAP、Paris6kで86.5% mAPを達成し、両ベンチマークですべての先行CNNベースの手法を上回った。
  • 本手法は、公表済みのCNNベースのアプローチの中でParis6kで最高のパフォーマンスを記録し、一部の局所特徴ベースのシステムでさえも上回った。
  • AMLを用いた再ランク付け法は、R-MAC表現に適用することで、Paris6kでmAPを最大3.9ポイント向上させた。
  • 統合プーリングフレームワークにおいてマックスプーリングを和プーリング(α=1)に置き換えると、パフォーマンスが低下(Paris106kで76.9% mAP)し、この文脈においてマックスプーリングの優位性を裏付けた。
  • Oxford5kでは、Razavianら(2014b)のクロスマッチング手法を3.0% mAP上回ったが、メモリおよび計算効率の点で著しく優れていた。
  • 1回の推論設計であるため、複数回の順伝播を要する前例のCNNベースの手法や、個々の領域特徴を保存する手法よりも効率的であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。