QUICK REVIEW

[論文レビュー] Understanding Image Retrieval Re-Ranking: A Graph Neural Network Perspective

Xuanmeng Zhang, Minyue Jiang|arXiv (Cornell University)|Dec 14, 2020

Advanced Image and Video Retrieval Techniques参考文献 45被引用数 25

ひとこと要約

この論文は、画像検索の再ランク付けを高並列性を持つGNNプロセスに再定式化するGNNベースの再ランク付け手法を提案している。計算を著しく高速化しつつ、検索精度を維持または向上させる。k近傍ノードグラフをモデル化し、GNNのメッセージパッシングを活用することで、1枚のGPU上でMarket-1501、VeRi-776、University-1652を含む5つのベンチマークで、再ランク付け時間を89.2秒から9.4msに短縮した。これにより、リアルタイムのポストプロセッシングが可能になった。

ABSTRACT

The re-ranking approach leverages high-confidence retrieved samples to refine retrieval results, which have been widely adopted as a post-processing tool for image retrieval tasks. However, we notice one main flaw of re-ranking, i.e., high computational complexity, which leads to an unaffordable time cost for real-world applications. In this paper, we revisit re-ranking and demonstrate that re-ranking can be reformulated as a high-parallelism Graph Neural Network (GNN) function. In particular, we divide the conventional re-ranking process into two phases, i.e., retrieving high-quality gallery samples and updating features. We argue that the first phase equals building the k-nearest neighbor graph, while the second phase can be viewed as spreading the message within the graph. In practice, GNN only needs to concern vertices with the connected edges. Since the graph is sparse, we can efficiently update the vertex features. On the Market-1501 dataset, we accelerate the re-ranking processing from 89.2s to 9.4ms with one K40m GPU, facilitating the real-time post-processing. Similarly, we observe that our method achieves comparable or even better retrieval results on the other four image retrieval benchmarks, i.e., VeRi-776, Oxford-5k, Paris-6k and University-1652, with limited time cost. Our code is publicly available.

研究の動機と目的

リアルワールドへの導入を制限する、近傍ベースの再ランク付け手法の高い計算複雑性に対処すること。
推論の効率を高めるために、再ランク付けをグラフニューラルネットワーク（GNN）関数に再定式化すること。
GNNのスパースグラフ計算とGPUアクセラレーションを活用して、画像検索におけるリアルタイムのポストプロセッシングを実現すること。
時間コストを著しく削減しながら、多様なベンチマークで性能を維持または向上させること。

提案手法

特徴埋め込みからk近傍（k-NN）グラフを構築し、画像間のトポロジカルな関係をモデル化する。
再ランク付けプロセスを2段階のGNN操作として定式化する：(1) k-NNによるグラフ構築、(2) メッセージパッシングによる特徴伝搬。
2層のGNNを適用して隣接ノードの情報を集約し、各ノードが接続された隣接ノードに基づいて特徴を更新する。
k-NNグラフのスパarsityを活かして、接続された頂点のみを更新する効率的なGPUアクセラレート推論を実現する。
グラフ構造を介して信頼度スコアと特徴を伝搬するGNNベースのクエリ拡張機構を適用する。
順序処理を回避するハードウェアに配慮した並列GNNパイプラインを実装し、GPU上で10ms未満の推論を実現する。

実験結果

リサーチクエスチョン

RQ1再ランク付けをグラフニューラルネットワーク（GNN）関数に再定式化することで、計算効率を向上させられるか？
RQ2従来の近傍ベース手法と比較して、GNNベースの再ランク付けは検索精度と速度の両面で優れているか？
RQ3GNNの内在的な並列性により、大規模な画像検索データセットでリアルタイムの再ランク付けが可能になるか？
RQ4k-reciprocalやSCA手法と比較して、GNNベースのアプローチは時間コストを削減しながら性能を維持または向上させられるか？

主な発見

Market-1501では、GNNベースの手法が1枚のK40m GPU上で再ランク付け時間を89.2秒から9.4msに短縮し、9,500倍の高速化を達成した。
Market-1501ではmAPが6.39%向上し、Recall@1が0.83%向上し、k-reciprocal や SCA を含むすべてのベースラインを上回った。
VeRi-776ではmAPが88.61%、Recall@1が96.42%を達成し、比較されたすべての手法の中で最高のmAPと2番目の高いRecall@1を記録した。
Oxford-5kとParis-6kでは、それぞれ92.95%のmAPと96.21%のmAPを達成し、GPU上での推論時間はわずか5.2msであった。
University-1652ではmAPが10.98%向上、Recall@1が11.81%向上、Recall@10が5.98%向上し、最先端の性能を達成した。
GPU最適化済みのGNN再ランク付けは、VeRi-776で5.2ms、University-1652で10.2msで実行され、k-reciprocal や SCA などのCPUベース手法と比較して、速度で桁違いの優位性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。