Skip to main content
QUICK REVIEW

[論文レビュー] Google Landmarks Dataset v2 -- A Large-Scale Benchmark for Instance-Level Recognition and Retrieval

Tobias Weyand, André Araujo|arXiv (Cornell University)|Apr 3, 2020
Advanced Image and Video Retrieval Techniques参考文献 61被引用数 28
ひとこと要約

本論文は、500万枚以上の画像と20万件の異なるランドマークインスタンスを有する大規模なベンチマーク、Google Landmarks Dataset v2 (GLDv2) を紹介する。このデータセットは、現実の条件下におけるインスタンスレベル認識と画像検索の課題を提示することを目的として設計されており、極端な長尾分布、99%のアウトオブドメインテストクエリ、および高いイントラクラス変動性を特徴としている。これにより、独立したデータセットにおけるモデルの耐障害性と転移学習性能の評価が可能となる。

ABSTRACT

While image retrieval and instance recognition techniques are progressing rapidly, there is a need for challenging datasets to accurately measure their performance -- while posing novel challenges that are relevant for practical applications. We introduce the Google Landmarks Dataset v2 (GLDv2), a new benchmark for large-scale, fine-grained instance recognition and image retrieval in the domain of human-made and natural landmarks. GLDv2 is the largest such dataset to date by a large margin, including over 5M images and 200k distinct instance labels. Its test set consists of 118k images with ground truth annotations for both the retrieval and recognition tasks. The ground truth construction involved over 800 hours of human annotator work. Our new dataset has several challenging properties inspired by real world applications that previous datasets did not consider: An extremely long-tailed class distribution, a large fraction of out-of-domain test photos and large intra-class variability. The dataset is sourced from Wikimedia Commons, the world's largest crowdsourced collection of landmark photos. We provide baseline results for both recognition and retrieval tasks based on state-of-the-art methods as well as competitive results from a public challenge. We further demonstrate the suitability of the dataset for transfer learning by showing that image embeddings trained on it achieve competitive retrieval performance on independent datasets. The dataset images, ground-truth and metric scoring code are available at https://github.com/cvdfoundation/google-landmark.

研究の動機と目的

  • 現実世界の設定におけるインスタンスレベル認識および画像検索のための、大規模かつ現実的なベンチマークの不足を解消すること。
  • 極端なクラスの不均衡、アウトオブドメインクエリ、高いイントラクラス変動性といった実用的課題を模擬すること。
  • Wikimedia Commonsから収集されたスケーラブルで多様なデータセットを提供し、耐障害性の高いモデル評価と転移学習を支援すること。
  • 大規模で細分化された認識および検索タスクのための新しい基準ベンチマークを確立すること。
  • 非ランドマーククエリにおける誤検出率の評価を可能とすること。これは、従来のデータセットではあまり検討されていなかった重要な課題である。

提案手法

  • データセットはWikimedia Commonsから構築され、インデックスおよびクエリセットの両方でCC0またはパブリックドメインライセンスの画像のみを用いて、プライバシー保護とメタデータ漏洩の防止を図った。
  • ランドマークラベルは専門家の人的アノテーションによってキュレートされ、高品質な真値を保証するため、合計800時間以上のラベリング作業が行われた。
  • トレーニングセットには400万枚の画像にインスタンスレベルのラベルが付与されており、検索用のインデックスセットには76万2000枚の画像が含まれる。
  • テストセットは11万8000枚のクエリ画像から構成され、そのうち1.1%(1万3000枚)がドメイン内ランドマークであり、98.9%がアウトオブドメインである。これは、現実世界のビジュアルサーチ条件を模擬している。
  • GLDv2で学習された画像埋め込み表現は、独立したデータセットで評価され、転移学習の可能性を示した。
  • すべての画像からメタデータ(例:ジオタグ、URL)が削除され、データ漏洩を防止した。完全な帰属表記はトレーニングセットのみに提供された。

実験結果

リサーチクエスチョン

  • RQ1極端な長尾クラス分布下で、モデルのインスタンスレベル認識および検索性能はどの程度劣化するか?
  • RQ2実用的なビジュアルサーチアプリケーションで一般的なアウトオブドメインクエリに対して、モデルはどの程度一般化できるか?
  • RQ3GLDv2で学習された画像埋め込み表現は、関連性のない独立した検索ベンチマークでも競争力のある性能を達成できるか?
  • RQ4視点、照明、天候、画像ドメインのシフト(例:写真、絵画、歴史的プリント)といった高いイントラクラス変動性に対して、モデルはどの程度耐性を示すか?
  • RQ5GLDv2は、データ量が少ない状況下での下流のインスタンス認識タスクのための有効な事前学習データセットとして機能できるか?

主な発見

  • GLDv2は、20万件の異なるランドマークインスタンスを含む500万枚以上の画像を有しており、これまでにない最大規模のインスタンスレベル認識および検索ベンチマークである。
  • テストセットには11万8000枚のクエリが含まれており、そのうち1.1%(1万3000枚)がドメイン内ランドマークであり、99%のアウトオブドメインクエリ率を模擬している。
  • 高品質なラベルを保証するため、合計800時間以上の人的ラベリング作業が行われ、認識および検索タスクの真値を構築した。
  • GLDv2で学習された画像埋め込み表現は、独立したデータセットで競争力ある検索性能を達成しており、強力な転移学習の可能性を示している。
  • デジタル写真、アナログプリント、絵画、建築図面など、多様な画像タイプが含まれており、ドメイン不変性の挑戦を高めている。
  • 最先端の手法を用いたベースライン結果が報告され、データセットは公開のKaggleチャレンジでも使用され、ベンチマークの有効性を検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。