Skip to main content
QUICK REVIEW

[论文解读] Measuring Non-Expert Comprehension of Machine Learning Fairness Metrics

Debjani Saha, Candice Schumann|arXiv (Cornell University)|Dec 17, 2019
Ethics and Social Impacts of AI被引用 29
一句话总结

本研究通过在线调查,探究非专业人士对三种机器学习公平性度量——人口统计均等、机会均等和均等机会——的理解程度。研究发现,教育水平显著预测理解程度,其中涉及假阴性率的机会均等定义尤其违背直觉且难以理解;理解程度较低与对公平规则的负面情绪较低相关,凸显了机器学习研究人员与公众之间在沟通上的鸿沟。

ABSTRACT

Bias in machine learning has manifested injustice in several areas, such as medicine, hiring, and criminal justice. In response, computer scientists have developed myriad definitions of fairness to correct this bias in fielded algorithms. While some definitions are based on established legal and ethical norms, others are largely mathematical. It is unclear whether the general public agrees with these fairness definitions, and perhaps more importantly, whether they understand these definitions. We take initial steps toward bridging this gap between ML researchers and the public, by addressing the question: does a lay audience understand a basic definition of ML fairness? We develop a metric to measure comprehension of three such definitions--demographic parity, equal opportunity, and equalized odds. We evaluate this metric using an online survey, and investigate the relationship between comprehension and sentiment, demographics, and the definition itself.

研究动机与目标

  • 评估在以通俗语言解释的情况下,非专业人士是否能理解关键的机器学习公平性定义。
  • 识别影响非专业人士理解公平性度量的因素。
  • 考察理解程度与对公平规则态度之间的关系。
  • 比较在现实招聘情境中,三种主要公平性定义的相对可理解性。

提出的方法

  • 通过简化招聘情景,在线开展两次调查,向非专业人士解释公平性定义。
  • 基于对情景相关问题的正确回答,构建理解程度评分。
  • 使用统计分析评估理解度量的可靠性和一致性。
  • 收集人口统计信息和情感反应,以分析其与理解程度的相关性。
  • 在部分参与者中采用定性访谈方法,探究其答题背后的推理过程。
  • 评估定义复杂性及反直觉元素(如机会均等中的假阴性率)对理解的影响。

实验结果

研究问题

  • RQ1RQ1:在提供非技术性解释的情况下,非专业人士是否能理解人口统计均等、机会均等和均等机会的定义?
  • RQ2RQ2:哪些因素(如教育水平、人口统计特征或定义结构)会影响对这些公平性定义的理解?
  • RQ3RQ3:理解程度与对公平规则的态度之间存在何种关系?
  • RQ4RQ4:在非专业人士中,三种公平性定义在可理解性方面如何比较?

主要发现

  • 教育水平是理解程度的显著预测因子,教育水平越高,对公平性定义的理解越好。
  • 涉及假阴性率的机会均等定义显著比人口统计均等或均等机会更难理解。
  • 理解程度较低的参与者对公平规则表现出较少负面情绪,表明理解与感知公平性之间存在脱节。
  • 理解度量评分在衡量人口统计均等理解程度方面表现出一致性和可靠性。
  • 研究发现,公平性定义中的反直觉特征——尤其是涉及假阴性率的部分——显著阻碍了非专业人士的理解。
  • 机器学习研究人员的公平性定义与公众理解之间存在显著差距,凸显了在现实人工智能部署中需要更清晰的沟通。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。