[论文解读] Server, server in the cloud. Who is the fairest in the crowd?
本文研究卷积神经网络(CNNs)如何使用CelebA数据集对人脸吸引力进行分类,揭示出算法偏见不仅源于训练数据,也源于网络架构的选择。尽管在检测面部特征方面表现优异,但模型在一致性地标注吸引力方面仍显吃力,原因在于人类判断具有主观性和多维性,暴露出人工智能驱动的美丽评估系统中系统性偏差。
This paper follows the recent history of automated beauty competitions to discuss how machine learning techniques, in particular neural networks, alter the way attractiveness is handled and how this impacts the cultural landscape. We describe experiments performed to probe the behavior of two different convolutional neural network architectures in the classification of facial attractiveness in a large database of celebrity faces. As opposed to other easily definable facial features, attractiveness is difficult to detect robustly even for the best classification systems. Based on the observations from these experiments, we discuss several approaches to detect factors that come into play when a machine evaluates human features, and how bias can occur not only in data selection but in network architectures; in multiple forms on multiple levels throughout the process. The overall goal is to map out with mixed methods a novel condition: slippages produced by platform level machine learning systems that make judgements in domains considered dependent on high level human intelligence.
研究动机与目标
- 分析机器学习模型,特别是CNNs,在大规模数据集中评估人脸吸引力的方式。
- 探究除数据选择之外,算法美丽判断中的偏见来源,包括架构设计。
- 梳理平台级人工智能系统在进行高层次人类智能判断时存在的‘滑移’——系统性不一致现象。
- 理解主观的人类概念如‘吸引力’如何被神经网络转化为可度量的特征。
- 评估自动化美丽评估对算法公平性与社会规范的影响。
提出的方法
- 在包含200,000张名人面部图像并标注了40个二元属性(包括‘有吸引力’)的CelebA数据集上,训练了两种不同的CNN架构。
- 通过使用ImageNet预训练权重初始化模型,以提升特征提取能力和收敛速度。
- 应用微调技术,使模型适应CelebA数据集中的人脸吸引力分类任务。
- 构建混淆矩阵以评估模型性能,特别关注吸引力预测中的假阳性和假阴性。
- 分析面部属性的共现模式,评估‘有吸引力’是否与特定特征稳定关联。
- 使用决策树解释模型预测,识别影响吸引力判断的关键特征。
实验结果
研究问题
- RQ1在大规模、多样化的数据集上,不同CNN架构在人脸吸引力分类中的表现如何?
- RQ2吸引力分类中的偏见在多大程度上源于数据选择,而非架构设计?
- RQ3考虑到‘吸引力’本身的主观性和多维性,该概念能否在机器学习模型中被可靠编码?
- RQ4共现的面部特征在决定算法吸引力判断中起什么作用?
- RQ5模型预测如何反映人类审美判断向算法规则转化过程中的不一致或滑移现象?
主要发现
- 模型在检测单个面部特征方面表现优异,但在一致分类‘有吸引力’的面部时表现吃力,表明该标签本身存在固有模糊性。
- ‘有吸引力’这一属性与任何单一面部特征均无强共现关系,表明人类评分者采用复杂且不一致的判断标准。
- 混淆矩阵显示存在显著误分类:许多真正有吸引力的面部被预测为无吸引力,反之亦然,凸显模型的不稳定性。
- 决策树显示,吸引力判断受多种特征共同影响,如‘微笑’、‘年轻’、‘肤色苍白’和‘无胡须’,但无单一特征占主导地位。
- 研究发现,架构选择与数据表示方式显著影响公平性与一致性,即使数据本身具有多样性。
- 结果表明,算法美丽评估并非仅反映偏见数据,还受到结构性设计选择的影响,导致判断中出现系统性滑移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。