[论文解读] Saving Face: Investigating the Ethical Concerns of Facial Recognition Auditing
论文介绍 CelebSET,一个交叉性脸部处理基准,评估商业 FPT API 在多任务上的表现,并讨论算法审计中的五个伦理关注和矛盾,认为审计受限,必须成为更广泛伦理评估的一部分。
Although essential to revealing biased performance, well intentioned attempts at algorithmic auditing can have effects that may harm the very populations these measures are meant to protect. This concern is even more salient while auditing biometric systems such as facial recognition, where the data is sensitive and the technology is often used in ethically questionable manners. We demonstrate a set of five ethical concerns in the particular case of auditing commercial facial processing technology, highlighting additional design considerations and ethical tensions the auditor needs to be aware of so as not exacerbate or complement the harms propagated by the audited system. We go further to provide tangible illustrations of these concerns, and conclude by reflecting on what these concerns mean for the role of the algorithmic audit and the fundamental product limitations they reveal.
研究动机与目标
- 开发 CelebSET,一个基于名人图片的交叉性脸部处理基准。
- 使用 CelebSET,在多任务上评估商业人脸处理 API(Microsoft、Amazon、Clarifai)。
- 识别并阐述算法审计设计与使用中的伦理考量与紧张关系。
- 表明基准设计选择如何影响公平性分析与政策含义。
提出的方法
- 从 IMDB-WIKI 构建 CelebSET,覆盖子组 DM、DF、LM、LF 的 80 位名人。
- 使用 CelebSET 评估 API 在性别、年龄、姓名、微笑和检测任务的表现。
- 在 IoU 0.50 的 AP50 用于检测准确度,并为年龄预测允许 8 年的误差范围。
- 分析单一子组与交叉子组之间的性能差异。
- 检查 API 使用的名人数据集的人口统计学特征,以讨论代表性偏见。
- 提出数据表、模型卡和透明文档,作为审计实践的一部分。
实验结果
研究问题
- RQ1商业性人脸处理 API 在 CelebSET 上在性别、年龄、姓名、微笑和检测任务上的表现如何?
- RQ2在包括交叉性群体在内的种族化和性别化子群体之间,性能差异的模式是什么?
- RQ3在进行和使用面部识别技术的算法审计时,会出现哪些伦理张力?
- RQ4审计设计应如何考虑隐私、代表性和透明度,以避免伤害边缘化群体?
主要发现
- 所有 API 在性别分类上显示最高准确度,Clarifai 在检测方面表现出色;年龄分类是所有 API 中最弱的任务。
- 在单一子组中,较暗肤色与女性组在大多数任务上通常表现较差,Clarifai 在性别分类方面表现出显著差异。
- 交叉子组分析证实,黑暗女性子组往往给出最低准确度,而较浅肤色男性往往表现最好,尽管不同任务存在例外。
- CelebSET 揭示 API 使用的底层名人数据集存在表现差异和偏见,凸显代表性与数据集偏斜问题。
- 论文强调,外部审计单独可能仅促使在被审计任务上改进,而忽视更广泛的产品设计与部署过程,呼吁全面、面向流程的审计(程序公平)。
- 审计不应被视为部署的唯一验证;CelebSET 应被视为一种最低门槛,以避免过度声称进展并鼓励更广泛的伦理评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。