[论文解读] Demographics and discussion influence views on algorithmic fairness
本研究通过针对三个人群的调查以及计算机科学专业学生纵向数据,探讨了人口统计特征与讨论对算法公平性看法的影响。研究发现,性别显著预测了人们对公平性的不同信念,尤其是在课程推荐算法中使用性别这一特征时;尽管讨论改变了部分人的观点,但并未减少基于性别的差异,也未实现共识。
The field of algorithmic fairness has highlighted ethical questions which may not have purely technical answers. For example, different algorithmic fairness constraints are often impossible to satisfy simultaneously, and choosing between them requires value judgments about which people may disagree. Achieving consensus on algorithmic fairness will be difficult unless we understand why people disagree in the first place. Here we use a series of surveys to investigate how two factors affect disagreement: demographics and discussion. First, we study whether disagreement on algorithmic fairness questions is caused partially by differences in demographic backgrounds. This is a question of interest because computer science is demographically non-representative. If beliefs about algorithmic fairness correlate with demographics, and algorithm designers are demographically non-representative, decisions made about algorithmic fairness may not reflect the will of the population as a whole. We show, using surveys of three separate populations, that there are gender differences in beliefs about algorithmic fairness. For example, women are less likely to favor including gender as a feature in an algorithm which recommends courses to students if doing so would make female students less likely to be recommended science courses. Second, we investigate whether people's views on algorithmic fairness can be changed by discussion and show, using longitudinal surveys of students in two computer science classes, that they can.
研究动机与目标
- 调查人口统计因素(尤其是性别)是否会影响人们对算法公平性的信念。
- 考察结构化讨论在多大程度上能改变个体对算法决策中公平性的看法。
- 评估在教育干预后,公平性感知中的群体差异是否依然存在。
- 评估增加讨论是否能提升人们对公平性权衡的共识。
- 通过理解基于价值观的分歧,为设计更具代表性与伦理一致性的算法系统提供建议。
提出的方法
- 对三组不同人群分别开展调查:社交媒体招募样本、Google消费者调查样本,以及本科生计算机科学学生群体。
- 使用标准化调查问题,呈现涉及算法公平性的伦理困境,例如在课程推荐中使用性别,或在刑事风险预测中使用种族。
- 收集两个计算机科学班级在一次关于算法公平性的讲座及讨论前后的时间序列数据。
- 通过统计分析检测在调查样本中,人口统计差异(尤其是性别)在公平性判断上的显著性。
- 通过讲座前后调查结果的对比,测量观点变化,重点关注对算法使用、透明度及特征包含的支持度变化。
- 在多个样本中重复验证结果,以确保研究发现的稳健性与普适性。
实验结果
研究问题
- RQ1人口统计因素(尤其是性别)是否显著预测人们对算法公平性信念的差异?
- RQ2结构化讨论在多大程度上能改变个体对算法决策中公平性的看法?
- RQ3在接触关于该主题的教育性讨论后,性别相关的公平性感知差异是否依然存在?
- RQ4讨论是否能提升人们对公平性权衡的共识,还是观点差异依然呈现异质性?
- RQ5公平性信念中的群体差异如何影响算法设计团队的代表性?
主要发现
- 若使用性别作为课程推荐算法的特征会降低女性学生被推荐科学课程的可能性,女性比男性更不可能支持该做法。
- 经过一小时的讲座与讨论后,超过90%的计算机科学学生表示其对算法公平性的看法发生了变化,尽管变化幅度普遍较小。
- 尽管经过讨论,性别在公平性信念上的差距并未持续缩小或消失,表明价值判断上的差异依然存在。
- 在COMPAS公平性问题上,讨论后回答的分布范围扩大,表明观点分歧加剧而非趋同。
- 学生在讨论后更支持算法透明度,并更倾向于在刑事司法中使用算法,但对公平性定义的看法仍难以改变。
- 在三个不同的人群中,公平性信念的群体差异均具有统计显著性,表明背景因素会影响人们对算法伦理判断的形成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。