QUICK REVIEW

[論文レビュー] Large-scale Landmark Retrieval/Recognition under a Noisy and Diverse Dataset

Kohei Ozaki, Shuhei Yokoo|arXiv (Cornell University)|Jun 10, 2019

Forensic Anthropology and Bioarchaeology Studies参考文献 22被引用数 28

ひとこと要約

この論文では、ノイジーで多様性に富んだ Google-Landmarks-v2 データセット上で大規模なランドマーク検索および認識のための頑健なディープラーニングシステムを提示している。空間的検証と判別的再順序付け手法を組み合わせた自動データクリーニングにより、著者らは2019年 Google Landmark Retrieval チャレンジで1位、認識トラックで3位を達成し、元のデータセットに対するベースラインモデルと比較して顕著な性能向上を示した。

ABSTRACT

The Google-Landmarks-v2 dataset is the biggest worldwide landmarks dataset characterized by a large magnitude of noisiness and diversity. We present a novel landmark retrieval/recognition system, robust to a noisy and diverse dataset, by our team, smlyaka. Our approach is based on deep convolutional neural networks with metric learning, trained by cosine-softmax based losses. Deep metric learning methods are usually sensitive to noise, and it could hinder to learn a reliable metric. To address this issue, we develop an automated data cleaning system. Besides, we devise a discriminative re-ranking method to address the diversity of the dataset for landmark retrieval. Using our methods, we achieved 1st place in the Google Landmark Retrieval 2019 challenge and 3rd place in the Google Landmark Recognition 2019 challenge on Kaggle.

研究の動機と目的

Google-Landmarks-v2 のような大規模でノイジーかつ極めて多様なデータセット上で、信頼性の高いランドマーク検索および認識モデルを訓練する課題に対処すること。
ノイズや分布外のサンプルを削減するために、トレーニングデータを自動的にクリーニングすることで、モデルの汎化性能と頑健性を向上させること。
同じランドマークの屋内・屋外の視点の違いといった、視覚的多様性の影響を、新しい再順序付け戦略によって軽減すること。
2019年 Google Landmark チャレンジの両トラック（検索および認識）で最先端のパフォーマンスを達成すること。

提案手法

k-近傍探索と RANSAC および DELF 特徴量を用いた空間的検証を用いた、自動データクリーニングパイプラインを用いてノイジーなトレーニングサンプルをフィルタリングする。
トレーニングセットを活用して、クエリ画像と候補画像間の類似度推定を改善することで、検索結果を精緻化する判別的再順序付け手法。
アーキテクチャの最適化に確率的勾配降下法とコサインアニーリングを用いた、ArcFace および CosFace に加え、コサイン-ソフトマックス損失を用いた深層度量学習モデルの訓練。
特徴表現と汎化性能を向上させるために、GeM プーリング（p=3.0）と1次元バッチ正則化の使用。
誤検出を低減するため、複数モデルのアンサンブルと、空間的検証および頻度ベースの信頼度抑制によるポストプロセッシング。
トレーニング中にハードおよびソフトなデータオーグメンテーションを適用することで、頑健性と汎化性能を向上させた。

実験結果

リサーチクエスチョン

RQ1大規模なランドマークデータセットにおけるノイズに対して、どのように深層度量学習モデルを頑健にすることができるか？
RQ2自動データクリーニングは、Google-Landmarks-v2 のようなノイジーで現実世界のデータセットにおいて、どの程度性能を向上させることができるか？
RQ3判別的再順序付け手法は、ランドマーク画像の視覚的多様性に対処して、検索時に効果的に機能するか？
RQ4アンサンブル学習と信頼度補正技術は、挑戦的なランドマークベンチマークで認識精度をどのように向上させるか？

主な発見

提案された自動データクリーニングプロセスにより、トレーニングセットが 4.1M から 1.9M 枚に削減され、モデル性能が顕著に向上した。
クリーニング済みデータセットを用いた最良の単一モデルは、検索チャレンジのパブリックテストセットで mAP@100 が 29.42、プライベートセットで 31.80 を達成した。
判別的再順序付け手法により、mAP@100 はパブリックで 35.69、プライベートで 37.23 に上昇し、ベースラインアンサンブルを 5 ポイント以上上回った。
認識チャレンジでは、最終パイプラインがパブリックセットで GAP 0.3066、プライベートセットで 0.3630 を達成し、3位を獲得した。
頻繁に出現する誤検出カテゴリ（例：花、ポートレート）の信頼度スコアを抑制するポストプロセッシングにより、GAP スコアが顕著に向上した。
ソフト投票における空間的検証とモデルアンサンブルの組み合わせにより、認識性能が相対的に 10% 向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。