QUICK REVIEW

[論文レビュー] Saving Face: Investigating the Ethical Concerns of Facial Recognition Auditing

Inioluwa Deborah Raji, Timnit Gebru|arXiv (Cornell University)|Jan 3, 2020

Ethics and Social Impacts of AI参考文献 23被引用数 60

ひとこと要約

この論文は CelebSET という交差的フェイス処理ベンチマークを提案し、商用 FPT API を複数タスクで評価し、アルゴリズム監査における五つの倫理的懸念と緊張を論じ、監査は限定的でありより広い倫理的評価の一部でなければならないと主張します。

ABSTRACT

Although essential to revealing biased performance, well intentioned attempts at algorithmic auditing can have effects that may harm the very populations these measures are meant to protect. This concern is even more salient while auditing biometric systems such as facial recognition, where the data is sensitive and the technology is often used in ethically questionable manners. We demonstrate a set of five ethical concerns in the particular case of auditing commercial facial processing technology, highlighting additional design considerations and ethical tensions the auditor needs to be aware of so as not exacerbate or complement the harms propagated by the audited system. We go further to provide tangible illustrations of these concerns, and conclude by reflecting on what these concerns mean for the role of the algorithmic audit and the fundamental product limitations they reveal.

研究の動機と目的

Celebrity 画像に基づく交差的なフェイス処理ベンチマークとして CelebSET を開発する。
CelebSET を用いて複数タスクで商用フェイス処理 API（Microsoft、Amazon、Clarifai）を評価する。
アルゴリズム監査の設計と使用における倫理的配慮と緊張を特定・明確化する。
ベンチマーク設計の選択が公平性分析と政策への影響にどう影響するかを示す。

提案手法

DM、DF、LM、LF のサブグループにまたがる 80 名のセレブリティを用いて IMDB-WIKI から CelebSET を構築する。
CelebSET を用いて性別、年齢、名前、笑顔、検出タスクに対する API のパフォーマンスを評価する。
検出精度に対して IoU 0.50 で AP50 を用い、年齢予測には 8 年のマージンを許容する。
単一性サブグループと交差サブグループ間のパフォーマンス格差を分析する。
API が使用するセレブリティデータセットの人口統計を検討し、表現バイアスを議論する。
監査実践の一環としてデータシート、モデルカード、透明な文書化を提案する。

実験結果

リサーチクエスチョン

RQ1CelebSET に対して商用フェイス処理 API は性別、年齢、名前、笑顔、検出タスクでどのようにパフォーマンスを示すか？
RQ2人種的・性別的サブグループ、さらには交差サブグループを含むパフォーマンス格差のパターンは何か？
RQ3フェイス認識技術のアルゴリズム監査を実施・使用する際にどのような倫理的緊張が生じるか？
RQ4監査設計はプライバシー、表現、透明性をどのように考慮すべきで、周辺のマイノリティへの害を避けるにはどうすべきか？

主な発見

すべての API は性別分類で最高の精度を示し、Clarifai は検出で優れている。一方、年齢分類はすべての API にとって最も弱いタスクである。
単一性サブグループ全体で、暗めの肌色と女性グループはほとんどのタスクで一般的に成績が低く、性別分類で顕著な格差を示すのは Clarifai。
交差サブグループ分析は、暗い女性サブグループが最も低い正確さを示す傾向があり、明るい男性が最も良い成績を示す傾向があるが、タスクによって例外もあることを確認した。
CelebSET は API が使用するセレブデータセットにおけるパフォーマンス格差とバイアスの両方を明らかにし、表現とデータセットの偏りの懸念を浮き彫りにする。
本論は外部監査だけでは監査対象タスクの改善を促す一方で広範な製品設計とデプロイプロセスを怠る可能性を強調し、包括的でプロセス指向的な監査（手続的公正）を訴える。
監査はデプロイの唯一の検証とみなされるべきではなく、CelebSET は過度な進歩の主張を避け、より広範な倫理評価を促す低い基準として捉えるべきである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。