QUICK REVIEW

[論文レビュー] Combination of Multiple Global Descriptors for Image Retrieval

HeeJae Jun, Byungsoo Ko|arXiv (Cornell University)|Mar 26, 2019

Advanced Image and Video Retrieval Techniques参考文献 60被引用数 43

ひとこと要約

本研究はCGDを提案する。エンド-to-エンドのフレームワークとして、複数のグローバル記述子（SPoC、MAC、GeM）を連結して結合画像表現を作成し、独立したモデルを別途学習させることなく、複数の画像検索ベンチマークで最先端の結果を達成する。

ABSTRACT

Recent studies in image retrieval task have shown that ensembling different models and combining multiple global descriptors lead to performance improvement. However, training different models for the ensemble is not only difficult but also inefficient with respect to time and memory. In this paper, we propose a novel framework that exploits multiple global descriptors to get an ensemble effect while it can be trained in an end-to-end manner. The proposed framework is flexible and expandable by the global descriptor, CNN backbone, loss, and dataset. Moreover, we investigate the effectiveness of combining multiple global descriptors with quantitative and qualitative analysis. Our extensive experiments show that the combined descriptor outperforms a single global descriptor, as it can utilize different types of feature properties. In the benchmark evaluation, the proposed framework achieves the state-of-the-art performance on the CARS196, CUB200-2011, In-shop Clothes, and Stanford Online Products on image retrieval tasks. Our model implementations and pretrained models are publicly available.

研究の動機と目的

画像検索におけるエンセmbles風の利得を、複数の独立したモデルを学習させることなく促進・実現することを動機づけ、可能にする。
単一のバックボーン内で多様なグローバル記述子を組み合わせ、それらの補完的性質を活用する。
端から端まで訓練可能なフレームワークを提供し、さまざまなバックボーン、記述子、損失関数、データセットへ適応できるようにする。
単一の記述子ベースラインに対して性能向上を実証的に示し、主要ベンチマークで最先端の結果を達成する。

提案手法

CNNバックボーンを用い、最後の特徴マップを生成する（例：ResNet-50、ダウンサンプリングを抑制したもの）。
最後の畳み込み特徴マップに対して、異なるグローバルプーリング記述子（SPoC、MAC、GeM）を適用する複数の分岐を作成する。
各分岐は、全結合層とl2正規化の後にk次元の埋め込みを出力する。
分岐の埋め込みを連結して最終的なCGDを形成し、l2正規化された状態でランキング損失を用いて訓練する。
補助モジュールは、温度スケーリングとラベルスムージングを用いて最初の記述子に分類損失を適用し、埋め込みの分離性を改善する。
主モジュールのランキング損失と補助分類損失を組み合わせた損失でエンドツーエンドに訓練する。

実験結果

リサーチクエスチョン

RQ1複数のグローバル記述子を単一のエンドツーエンド訓練可能なフレームワークに統合して、明示的な多様性制御なしにアンサンブル風の利点を実現できるか。
RQ2SPoC、MAC、GeMは組み合わせることで補完的な性質を提供し、画像検索を改善するか。
RQ3標準データセット全体で最良の性能を得るための設定（どの記述子を、どの順序で、どのように組み合わせるか）は何か。
RQ4CGDフレームワークは異なるCNNバックボーンとランキング損失にも対応できるほど柔軟か。

主な発見

CGDフレームワークは、データセット（CUB200-2011、CARS196、SOP、In-shop Clothes）全体で単一記述子ベースラインを一貫して上回る。
複数の記述子を連結することで、それぞれの個別の性質を保持し、総和を取るよりも良い結果を生み出す。
温度スケーリングとラベルスムージングを用いた補助分類損失は、収束と埋め込み品質を向上させる。
最高性能を出す設定は、最も高い単一記述子と2番目に高い単一記述子を組み合わせることが多く（例：MG/SG）、データセット全体で強力な利得を達成する。
エンドツーエンド訓練を伴うCGDは、単一のバックボーンと限られた追加パラメータで済むため、従来のマルチ学習者アンサンブルよりも効率的。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。