QUICK REVIEW

[论文解读] Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation

Emily Denton, Mark Díaz|arXiv (Cornell University)|Dec 8, 2021

Mobile Crowdsensing and Crowdsourcing被引用 24

一句话总结

本文主张，标注者身份——包括个体生活经历与集体社会人口背景——显著影响机器学习数据集的标注，引入隐藏偏见，进而影响模型的公平性与社会影响。本文提出一个框架，供数据集开发者通过有意识的标注者池选择、公平的平台选择、考虑分歧的数据聚合方式以及全面的文档记录，伦理地应对标注者的主观性。

ABSTRACT

Human annotations play a crucial role in machine learning (ML) research and development. However, the ethical considerations around the processes and decisions that go into building ML datasets has not received nearly enough attention. In this paper, we survey an array of literature that provides insights into ethical considerations around crowdsourced dataset annotation. We synthesize these insights, and lay out the challenges in this space along two layers: (1) who the annotator is, and how the annotators' lived experiences can impact their annotations, and (2) the relationship between the annotators and the crowdsourcing platforms and what that relationship affords them. Finally, we put forth a concrete set of recommendations and considerations for dataset developers at various stages of the ML data pipeline: task formulation, selection of annotators, platform and infrastructure choices, dataset analysis and evaluation, and dataset documentation and release.

研究动机与目标

解决众包数据集标注中的伦理疏漏，特别是对标注者身份与生活经历缺乏关注的问题。
揭示标注者主观性与社会人口结构偏差如何将偏见编码进机器学习数据集。
为数据集开发者在数据管道各阶段提供可操作的建议，以提升问责性与代表性。
通过强调分歧作为多元视角的信号，挑战单一‘真实答案’的神话。
倡导对标注者人口统计信息与个体标注记录进行透明化文档记录，以增强数据集的可解释性与公平性。

提出的方法

调研现有文献中关于众包数据标注伦理挑战的研究，重点关注身份、权力结构与劳动条件。
分析标注者主观性——受社会身份、生活经历与工作条件影响——如何影响标注结果。
提出基于数据管道的框架，涵盖任务设计、标注者选择、平台选择、数据聚合与文档记录等建议。
建议在数据集中包含个体标注者响应与分歧度量，以保留细微差别，避免抹除少数群体视角。
倡导基于公平薪酬标准与标注者反馈机制的平台选择，以提升任务质量与劳动者自主权。
推动采用标准化的数据集文档框架，包含标注者人口统计信息与设计决策，以确保透明度与问责性。

实验结果

研究问题

RQ1个体标注者的生活经历与社会文化背景在仇恨言论或情感识别等主观任务中，如何影响其标注决策？
RQ2众包系统中的权力不对称与平台设计在哪些方面影响数据集标注的质量与代表性？
RQ3将多个标注结果聚合为单一‘真实答案’在多大程度上存在问题？如何将分歧作为有意义的信号加以保留？
RQ4数据集开发者如何伦理地选择标注者群体，以确保最直接受下游人工智能系统影响的群体得到代表？
RQ5哪些文档实践能够提升数据集开发的透明度与问责性，特别是关于标注者身份与工作条件方面？

主要发现

标注者主观性并非缺陷，而是主观任务的特征——标注者之间的分歧通常反映有效、情境依赖的解读，而非错误。
众包平台往往将工人视为可互换的，这掩盖了生活经验与专业领域知识的价值，尤其是来自边缘化群体的贡献。
标注者群体中的人口统计偏差——如美国众包中女性过度代表——若未通过有意识的选择与公平薪酬加以解决，可能加剧结构性不平等。
通过多数投票聚合标注结果可能边缘化少数群体观点，并损失重要细微差别，尤其当分歧反映有效的文化或语境差异时。
在数据集中包含个体标注者响应与分歧度量，可提升模型的可解释性，并降低编码未经审视偏见的风险。
全面的文档记录，包括标注者人口统计信息与平台政策，对于负责任的数据集发布以及人工智能开发中的问责性至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。