QUICK REVIEW

[論文レビュー] MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition

Yandong Guo, Lei Zhang|arXiv (Cornell University)|Jul 27, 2016

Face recognition and analysis参考文献 17被引用数 162

ひとこと要約

本論文は、知識ベースにリンクされた1人月のセレブリティ顔認識ベンチマークと大規模な学習セットおよび評価プロトコルを導入し、スケールでの精度とカバレッジを測定します。

ABSTRACT

In this paper, we design a benchmark task and provide the associated datasets for recognizing face images and link them to corresponding entity keys in a knowledge base. More specifically, we propose a benchmark task to recognize one million celebrities from their face images, by using all the possibly collected face images of this individual on the web as training data. The rich information provided by the knowledge base helps to conduct disambiguation and improve the recognition accuracy, and contributes to various real-world applications, such as image captioning and news video analysis. Associated with this task, we design and provide concrete measurement set, evaluation protocol, as well as training data. We also present in details our experiment setup and report promising baseline results. Our benchmark task could lead to one of the largest classification problems in computer vision. To the best of our knowledge, our training dataset, which contains 10M images in version 1, is the largest publicly available one in the world.

研究の動機と目的

顔を知識ベースのエンティティキー（1人月のセレブリティ）にリンクする大規模な顔認識ベンチマークを定義する。
研究のためのデータセットを提供し、曖昧化とウェブ規模の認識に関する研究を可能にする。
スケーラビリティの課題とベースライン結果を強調し、顔認識の大規模クラス分類の研究を促進する。
外部データの利用とデータセットの将来的な拡張を奨励し、実世界の適用性を向上させる。

提案手法

Freebaseをウェブ出現頻度で並べ替え、1万人級のセレブリティリストを構築し、各セレブリティのFreebase MIDsを提供する。
約100Kのトップセレブリティに対して、分類ベースの学習のための cropped/aligned な顔を含む大規模な学習セット（約10M画像）を組み立てる。
認識性能を特定の精度制約の下で評価するために、混同行為を混ぜた慎重にラベル付けされた画像を用いた測定セットを設計する。
評価プロトコルを、拒否閾値を用いてPmin=0.95のターゲット精度で最大カバレッジを測定する精度とカバレッジで定義する。
有名人用の深層ニューラルネットワーク分類器を訓練する（初期は500クラスモデル、次に100Kクラスの完全モデル）ことで基準性能を確立する。
測定セットは、難易度の高いケースを含む2枚の画像を各セレブリティに割り当て、カバレッジと一般化を重視している。

実験結果

リサーチクエスチョン

RQ1認識と曖昧解決を、知識ベースのエンティティキーにリンクする1,000,000のセレブリティクラスへスケールできるか？
RQ2ウェブ由来の学習データを使用した大規模セレブリティ認識ベンチマークで、どの程度の精度とカバレッジが達成されるか？
RQ3この設定でクラス数が100Kを超える場合、深層ニューラルネットワーク分類器はどのようにパフォーマンスを示すか？
RQ4実世界のアプリケーション（画像検索やキャプション生成など）で、豊富な知識ベースの特性と顔リンクを結ぶ際の課題と基準障壁は何か？

主な発見

知識ベースのキーにリンクされた1人月のセレブリティ認識タスクは実現可能で、意味のあるベースラインを生み出す。
約10Mの画像からなる約100Kのトップセレブリティ向け学習セットは、測定タスクの強力なベースラインを提供する。
100KのセレブリティでのベースラインCNN訓練は、精度-カバレッジのトレードオフを顕著に示し、挑戦的なスケールを明示する（Hard Set: 0.052 at 99% precision, 0.442 at 95% precision; Random Set: 0.606 at 99% precision, 0.728 at 95% precision）。
測定セットには、混同行為と難易度の高いケースを含む2枚の画像が各セレブリティに割り当てられ、一般化とカバレッジをテストする。
著者は外部データの活用とカバレッジの拡大を奨励し、提供されたベースラインを超える上限を押し上げようとしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。