QUICK REVIEW

[論文レビュー] Fine-tuning CNN Image Retrieval with No Human Annotation

Filip Radenović, Giorgos Tolias|arXiv (Cornell University)|Nov 3, 2017

Advanced Image and Video Retrieval Techniques被引用数 29

ひとこと要約

本論文は、構造からモーション（SfM）パイプラインからの3次元再構成のみを用いて、人為的アノテーションデータを一切不要とすることで、CNNの画像検索用のファインチューニングを完全に非教師ありで行う手法を提案する。カメラの幾何学的構造と3次元モデル構造を活用して、自動的にハードポジティブおよびハードネガティブ例を抽出し、学習可能な一般化平均（GeM）プーリング層と判別的記述子のホワイトニングを導入することで、VGGネットワークを用いてオックスフォード・ビルドイングス、パリ、ホリデーのベンチマークで最先端の性能を達成した。

ABSTRACT

Image descriptors based on activations of Convolutional Neural Networks (CNNs) have become dominant in image retrieval due to their discriminative power, compactness of representation, and search efficiency. Training of CNNs, either from scratch or fine-tuning, requires a large amount of annotated data, where a high quality of annotation is often crucial. In this work, we propose to fine-tune CNNs for image retrieval on a large collection of unordered images in a fully automated manner. Reconstructed 3D models obtained by the state-of-the-art retrieval and structure-from-motion methods guide the selection of the training data. We show that both hard-positive and hard-negative examples, selected by exploiting the geometry and the camera positions available from the 3D models, enhance the performance of particular-object retrieval. CNN descriptor whitening discriminatively learned from the same training data outperforms commonly used PCA whitening. We propose a novel trainable Generalized-Mean (GeM) pooling layer that generalizes max and average pooling and show that it boosts retrieval performance. Applying the proposed method to the VGG network achieves state-of-the-art performance on the standard benchmarks: Oxford Buildings, Paris, and Holidays datasets.

研究の動機と目的

CNNベースの画像検索における高価な人為的アノテーション付き学習データの必要性を排除すること。
3次元再構成から自動的にハードポジティブおよびハードネガティブ例をマイニングすることで、検索性能を向上させること。
最大プーリングや平均プーリングを一般化する、トレーニング可能なプーリング層の開発。
同じ非教師ありデータから学習する判別的ホワイトニング手法の導入により、性能をさらに向上させること。
手動アノテーションなしで標準ベンチマークで最先端の結果を達成すること。

提案手法

順不同の画像コレクションに対してSfMパイプラインから得られる3次元再構成を用いて、自動的にトレーニングペアを特定する。
同じ物体の異なる視点から撮影された画像からハードポジティブ例を、関連のない物体からハードネガティブ例を抽出する。
各特徴マップごとまたはグローバルに学習可能なパラメータを持つ、学習可能な一般化平均（GeM）プーリング層を導入し、最大プーリングと平均プーリングを一般化する。
同じ非教師あり学習データから学習した判別的ホワイトニングを適用し、記述子のコンactnessと判別性を向上させる。
従来の平均クエリ拡張よりもより頑健な、新しいα重み付きクエリ拡張を提案する。
自動収集されたポジティブおよびネガティブペアに対してコントラスト損失を用いてネットワークをトレーニングする。

実験結果

リサーチクエスチョン

RQ1人為的アノテーション付き学習データが一切不要な状況でも、画像検索性能を著しく向上させることは可能か？
RQ23次元再構成の幾何学的構造を活用することで、より良い記述子学習のためのハードトレーニング例を効果的にマイニングできるか？
RQ3学習可能なGeMプーリング層は、最大プーリングや平均プーリングといった固定プーリング機構を上回る性能を示すのか？
RQ4同じ非教師ありデータから学習した判別的ホワイトニングは、標準的なPCAホワイトニングを上回る記述子品質を実現できるか？
RQ5本手法は、トレーニングデータに過学習せずに、多様なベンチマークに一般化して適用可能か？

主な発見

本手法は、GeMプーリングとファインチューニングを用いたVGG-16を用いて、Oxford5kで87.9%、Paris6kで87.9%、Holidaysで87.9%のmAPを達成し、最先端の性能を実現した。
α重み付きクエリ拡張を組み合わせると、Oxford5kで91.9%、Paris6kで91.9%のmAPを達成し、先行する非教師ありおよび教師ありベースラインを上回った。
学習可能なGeMプーリング層は、標準的な最大プーリングや平均プーリングを上回り、全データセットで2〜3%のmAP向上を示した。
同じ非教師ありデータから学習した判別的ホワイトニングは、PCAホワイトニングと比較して最大2.5%のmAP向上を達成した。
ネットワークは良好に一般化され、Oxfordおよびパリのランドマークを含むすべての3次元モデルでトレーニングした場合でも、平均mAPが0.3%しか低下しなかったことから、過学習の兆候はほとんどなかった。
本手法はOxford5kおよびHolidaysで最先端を記録し、パリでは最高のシステムと同等の性能を達成したが、手動ラベルやランドマークアノテーションを一切使用していない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。