QUICK REVIEW

[論文レビュー] Robustness Disparities in Commercial Face Detection

Samuel Dooley, Tom Goldstein|arXiv (Cornell University)|Aug 27, 2021

Face recognition and analysis参考文献 51被引用数 26

ひとこと要約

この研究は4つのデータセットにわたり、15のImageNet-Cノイズに対する3つの商用顔検出システム（Amazon Rekognition、Microsoft Azure、Google Cloud）の頑健性をベンチマークし、人口統計的格差が誤検出率に現れることと、ノイズおよび低照度下での劣化がより顕著であることを明らかにした。

ABSTRACT

Facial detection and analysis systems have been deployed by large companies and critiqued by scholars and activists for the past decade. Critiques that focus on system performance analyze disparity of the system's output, i.e., how frequently is a face detected for different Fitzpatrick skin types or perceived genders. However, we focus on the robustness of these system outputs under noisy natural perturbations. We present the first of its kind detailed benchmark of the robustness of three such systems: Amazon Rekognition, Microsoft Azure, and Google Cloud Platform. We use both standard and recently released academic facial datasets to quantitatively analyze trends in robustness for each. Across all the datasets and systems, we generally find that photos of individuals who are older, masculine presenting, of darker skin type, or have dim lighting are more susceptible to errors than their counterparts in other identities.

研究の動機と目的

3つの商用顔検出APIの現実的な画像汚損に対する頑健性を定量化する。
頑健性が年齢・性別表現・フェニックス皮膚タイプ（Fitzpatrick）・照明条件とどう変化するかを検討する。
商用検出システムの頑健性を評価するためのスケーラブルなベンチマークフレームワークを提供する。
内部の学習データやモデルを仮定せずに、ImageNet-Cの発見と過去の公平性研究との比較を可能にする。

提案手法

4つのデータセット（Adience、CCD、MIAP、UTKFace）に対して15のImageNet-C汚損を5つの重大度レベルで適用する。
各画像でAWS、Azure、Google Cloud Platformの顔検出APIを照会し、検出顔数をGround Truth代理として記録する。
汚損後に検出顔数が変化した場合に1、そうでなければ0となる相対汚損誤差（rCE）を計算する。
データセット、汚損、重大度、および人口統計グループ全体で平均相対汚損誤差（mrCE）へ集計する。
IoU≥0.5での per-image precision を得るために772画像を手動アノテーションし、精度と顔数代理との相関（Pearson r=0.91、p<0.001）を検証する。

実験結果

リサーチクエスチョン

RQ1商用の顔検出APIは、自然画像の汚損に直面したときに人口統計グループ間で頑健性の格差を示すのか。
RQ2 dataset across age, gender presentation, skin type（Fitzpatrick）、照明条件で頑健性はどう変化するか。
RQ33つのAPIのうちどれ（AWS、Azure、GCP）が特定の汚損タイプで最も頑健性の低下を示すか。
RQ4頑健性の結果を、非顔データに関するImageNet-Cの過去の発見とどう比較できるか。

主な発見

ノイズ汚損はほとんどのデータセットとサービスで他の汚損タイプよりパフォーマンスを著しく低下させる。
年長の被写体、男性的な表現、暗い肌色、低照度はデータセット全体で高い誤り率を示す（例：約20〜60%）。
GCPはデータセット全体を通じてAzureより一貫して性能が劣る。AzureとAWSは特定の汚損に対してより顕著な劣化を示す。
低照度は格差を拡大し、グループ間のギャップを縮小する傾向があるが、特定の識別子（例：Other gender）では異なるパターンを示す。
性別推定は顔検出より汚損に対してはるかに敏感で、AWSの誤性別推定はクリーン時9.1%から汚損時21.6%へ増加。年齢推定誤差は汚損データで約40%増加。
識別子全体では、肌色が濃く年齢が高いほどmrCEが高くなる傾向があり、CCD/MIAPデータセットでは黒く男性的な個人が交差的な影響を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。