QUICK REVIEW

[論文レビュー] About Face: A Survey of Facial Recognition Evaluation

Inioluwa Deborah Raji, Genevieve Fried|arXiv (Cornell University)|Feb 1, 2021

Face recognition and analysis参考文献 51被引用数 39

ひとこと要約

この調査は 100+ の顔データセット（1976–2019）を合計 145 million 枚の画像を分析し、ベンチマークとデモグラフィックがどのように進化したかを評価し、評価を実世界の展開と一致させるための明示的な文脈報告を主張する。

ABSTRACT

We survey over 100 face datasets constructed between 1976 to 2019 of 145 million images of over 17 million subjects from a range of sources, demographics and conditions. Our historical survey reveals that these datasets are contextually informed, shaped by changes in political motivations, technological capability and current norms. We discuss how such influences mask specific practices (some of which may actually be harmful or otherwise problematic) and make a case for the explicit communication of such details in order to establish a more grounded understanding of the technology's function in the real world.

研究の動機と目的

顔認識評価が四つの歴史的時期にわたりどのように進化してきたか、そしてデータセット設計がモデルの性能をどう形作るかを把握する
ベンチマークのデータソース、同意、プライバシー、デモグラフィック報告を評価する
ベンチマークの性能と実世界の結果の間のギャップを浮き彫りにし、文脈依存の報告を提言する
評価報告とガバナンスを改善し、展開コンテクストをよりよく反映できるようにする

提案手法

過去史的・期間ベースの分析により、1976–2019年の133データセット、合計 145,143,610 枚の画像、17,733,157 名の個人を対象
データソース（写真セッション、ウェブ収集、監視）、同意の実践、デモグラフィック報告の分類
評価指標（FMR、FNMR、精度）と閾値選択が報告パフォーマンスに与える影響の分析
タスクタイプ（検出、検証、識別、分析）とそれぞれのベンチマークの横断的統合
ガバナンス、監査（例：NIST FVRT）を評価し、全体的かつ展開を意識した評価の必要性を指摘
倫理的リスク、プライバシー問題、ベンチマークやマーケティングでの悪用可能性について論じる

実験結果

リサーチクエスチョン

RQ11976年から2019年にかけて、顔認識のベンチマークとデータソースはどのように進化したのか？
RQ2デモグラフィック、同意、報告慣行を含む評価実践を推進する主な要因は何か？
RQ3なぜベンチマークの結果は実世界のパフォーマンスとしばしば乖離し、評価は展開コンテクストをよりよく反映するにはどうすればよいのか？
RQ4評価をより全体的かつ倫理的に責任あるものにするために、ガバナンス、監査、報告の改善は何が必要か？

主な発見

Period	Period I	Period II	Period III	Period IV	Years
Number of Datasets Created	5	37	33	45	Before 1996	1996 - 2007	2007-2014	After 2014
Range of images per dataset (MIN- MAX)	56 - 14,126	120 - 121,589	154 - 750,000	642 - 50,000,000
Range of subjects per dataset (MIN- MAX)	4 - 1,199	10 - 37,437	32 - 40,395	50 - 14,400,000
Average images per dataset	2,032	11,250	46,308	2,620,489
Average subjects per dataset	136	1,641	4,078	75,726
-	-	-	-	-

本調査は 133 データセット（1976–2019）を対象とし、17,733,157 名の被験者、合計 145,143,610 枚の画像を含む
データセットのリリースは4つの期間で規模、範囲、タスクが異なる傾向を示し、2014年以降の深層学習時代へと集約される
実世界の展開での失敗や偏り（例：デモグラフィックの格差）はベンチマークの性能だけでは必ずしも捉えられない
データソースは制御された写真撮影からウェブソースや監視データへと移行し、同意とプライバシーの懸念が高まっている
デモグラフィック表現は不均衡で、西洋的バイアスがオンラインデータセットに現れ、いくつかのデータセットでは不適切なラベリングが見られる
評価指標（FMR、FNMR、精度）は閾値で操作可能であり、全体的な監査と文脈対応の報告が推奨される
NIST FVRTは展開準備性に対して定量的パフォーマンスと定性的使いやすさの二重モード評価の価値を示す
本論はデータセットの構成、同意、出典、意図された使用ケースを明示的に伝えることを提唱し、実世界機能の指針としたい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。