[論文レビュー] About Face: A Survey of Facial Recognition Evaluation
この調査は 100+ の顔データセット(1976–2019)を合計 145 million 枚の画像を分析し、ベンチマークとデモグラフィックがどのように進化したかを評価し、評価を実世界の展開と一致させるための明示的な文脈報告を主張する。
We survey over 100 face datasets constructed between 1976 to 2019 of 145 million images of over 17 million subjects from a range of sources, demographics and conditions. Our historical survey reveals that these datasets are contextually informed, shaped by changes in political motivations, technological capability and current norms. We discuss how such influences mask specific practices (some of which may actually be harmful or otherwise problematic) and make a case for the explicit communication of such details in order to establish a more grounded understanding of the technology's function in the real world.
研究の動機と目的
- 顔認識評価が四つの歴史的時期にわたりどのように進化してきたか、そしてデータセット設計がモデルの性能をどう形作るかを把握する
- ベンチマークのデータソース、同意、プライバシー、デモグラフィック報告を評価する
- ベンチマークの性能と実世界の結果の間のギャップを浮き彫りにし、文脈依存の報告を提言する
- 評価報告とガバナンスを改善し、展開コンテクストをよりよく反映できるようにする
提案手法
- 過去史的・期間ベースの分析により、1976–2019年の133データセット、合計 145,143,610 枚の画像、17,733,157 名の個人を対象
- データソース(写真セッション、ウェブ収集、監視)、同意の実践、デモグラフィック報告の分類
- 評価指標(FMR、FNMR、精度)と閾値選択が報告パフォーマンスに与える影響の分析
- タスクタイプ(検出、検証、識別、分析)とそれぞれのベンチマークの横断的統合
- ガバナンス、監査(例:NIST FVRT)を評価し、全体的かつ展開を意識した評価の必要性を指摘
- 倫理的リスク、プライバシー問題、ベンチマークやマーケティングでの悪用可能性について論じる
実験結果
リサーチクエスチョン
- RQ11976年から2019年にかけて、顔認識のベンチマークとデータソースはどのように進化したのか?
- RQ2デモグラフィック、同意、報告慣行を含む評価実践を推進する主な要因は何か?
- RQ3なぜベンチマークの結果は実世界のパフォーマンスとしばしば乖離し、評価は展開コンテクストをよりよく反映するにはどうすればよいのか?
- RQ4評価をより全体的かつ倫理的に責任あるものにするために、ガバナンス、監査、報告の改善は何が必要か?
主な発見
| Period | Period I | Period II | Period III | Period IV | Years | ||||
|---|---|---|---|---|---|---|---|---|---|
| Number of Datasets Created | 5 | 37 | 33 | 45 | Before 1996 | 1996 - 2007 | 2007-2014 | After 2014 | |
| Range of images per dataset (MIN- MAX) | 56 - 14,126 | 120 - 121,589 | 154 - 750,000 | 642 - 50,000,000 | |||||
| Range of subjects per dataset (MIN- MAX) | 4 - 1,199 | 10 - 37,437 | 32 - 40,395 | 50 - 14,400,000 | |||||
| Average images per dataset | 2,032 | 11,250 | 46,308 | 2,620,489 | |||||
| Average subjects per dataset | 136 | 1,641 | 4,078 | 75,726 | |||||
| - | - | - | - | - |
- 本調査は 133 データセット(1976–2019)を対象とし、17,733,157 名の被験者、合計 145,143,610 枚の画像を含む
- データセットのリリースは4つの期間で規模、範囲、タスクが異なる傾向を示し、2014年以降の深層学習時代へと集約される
- 実世界の展開での失敗や偏り(例:デモグラフィックの格差)はベンチマークの性能だけでは必ずしも捉えられない
- データソースは制御された写真撮影からウェブソースや監視データへと移行し、同意とプライバシーの懸念が高まっている
- デモグラフィック表現は不均衡で、西洋的バイアスがオンラインデータセットに現れ、いくつかのデータセットでは不適切なラベリングが見られる
- 評価指標(FMR、FNMR、精度)は閾値で操作可能であり、全体的な監査と文脈対応の報告が推奨される
- NIST FVRTは展開準備性に対して定量的パフォーマンスと定性的使いやすさの二重モード評価の価値を示す
- 本論はデータセットの構成、同意、出典、意図された使用ケースを明示的に伝えることを提唱し、実世界機能の指針としたい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。