Skip to main content
QUICK REVIEW

[论文解读] Bringing the People Back In: Contesting Benchmark Machine Learning Datasets

Emily Denton, Alex Hanna|arXiv (Cornell University)|Jul 14, 2020
Ethics and Social Impacts of AI参考文献 28被引用 52
一句话总结

本文提出一种族谱式研究计划,将基准机器学习数据集视为基础设施性文物,旨在揭示数据集构建背后的历史、价值观与劳动,并实现对数据集的可质疑性,而不仅仅是透明性。

ABSTRACT

In response to algorithmic unfairness embedded in sociotechnical systems, significant attention has been focused on the contents of machine learning datasets which have revealed biases towards white, cisgender, male, and Western data subjects. In contrast, comparatively less attention has been paid to the histories, values, and norms embedded in such datasets. In this work, we outline a research program - a genealogy of machine learning data - for investigating how and why these datasets have been created, what and whose values influence the choices of data to collect, the contextual and contingent conditions of their creation. We describe the ways in which benchmark datasets in machine learning operate as infrastructure and pose four research questions for these datasets. This interrogation forces us to "bring the people back in" by aiding us in understanding the labor embedded in dataset construction, and thereby presenting new avenues of contestation for other researchers encountering the data.

研究动机与目标

  • 倡导一种族谱式方法,研究基准ML数据集如何被创建以及哪些价值观影响数据收集。
  • 将数据集作为塑造研究议程、基准测试和行业实践的基础设施来框定。
  • 引入来自基础设施研究的术语与分析视角,以去自然化数据实践。
  • 概述一个四部分的研究计划,以理解围绕基准数据集的动机、历史、权威与当前实践。

提出的方法

  • 采用米歇尔·福柯的族谱学方法,追踪数据集实践的历史形成与变迁。
  • 使用基础设施反转法揭示数据创建中的隐藏劳动与情境因素。
  • 将数据集和基准测试视为支撑ML研究与行业部署的基础设施。
  • 对数据集文档及相关沟通文本进行文本分析,以揭示动机与约定俗成。
  • 提出民族志、历史与多地点研究,以研究主要ML中心的数据工作实践。

实验结果

研究问题

  • RQ1数据集开发者如何描述并为创建数据集及其文档所涉决策提供动机?
  • RQ2基准数据集创建的历史与有条件的情形是什么?
  • RQ3基准数据集如何获得权威性,这种权威性如何影响研究实践与规范?
  • RQ4在机器学习中,当前组织数据收集、整理与标注的工作实践、规范与日常流程有哪些?

主要发现

  • 引入来自基础设施研究的新词汇和概念,将数据框定为充满权力关系的基础设施,并倡导可质疑性。
  • 概述一套新颖的机器学习数据族谱学作为一个带有明确问题与方法的研究计划。
  • 主张对数据管道的控制需要审视数据集创建中的历史偶然性、权力关系及劳动。
  • 倡导数据发布实践,记录目标、收集方法、整理和分类以支持反思性分析。
  • 强调不能只以数据量来解决公平问题,突出掠夺性纳入与数据劳动剥削的风险。
  • 提出在现场、多地点进行对主要ML中心的民族志研究,以揭示当前的数据实践和规范性日常。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。