Skip to main content
QUICK REVIEW

[论文解读] Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research

Bernard Koch, Emily Denton|arXiv (Cornell University)|Dec 3, 2021
Ethics and Social Impacts of AI被引用 57
一句话总结

本论文分析2015–2020年ML基准数据集在任务社区中的使用与再使用,显示对少数数据集的集中度提高,以及在精英机构中的主导地位。

ABSTRACT

Benchmark datasets play a central role in the organization of machine learning research. They coordinate researchers around shared research problems and serve as a measure of progress towards shared goals. Despite the foundational role of benchmarking practices in this field, relatively little attention has been paid to the dynamics of benchmark dataset use and reuse, within or across machine learning subcommunities. In this paper, we dig into these dynamics. We study how dataset usage patterns differ across machine learning subcommunities and across time from 2015-2020. We find increasing concentration on fewer and fewer datasets within task communities, significant adoption of datasets from other tasks, and concentration across the field on datasets that have been introduced by researchers situated within a small number of elite institutions. Our results have implications for scientific evaluation, AI ethics, and equity/access within the field.

研究动机与目标

  • 研究ML任务社区如何在特定基准数据集上集中。
  • 调查数据集的跨任务采用与任务专用创建之间的对比。
  • 识别最具主导性的基准数据集的机构起源及其随时间的演变。

提出的方法

  • 使用 Papers With Code (PWC) 语料库跟踪2015–2020年数据集的使用与起源。
  • 计算基尼系数以衡量任务内数据集使用的集中度。
  • 定义 Adoption Proportion 与 Creation Proportion 来分析跨任务的数据集转移与数据集创建。
  • 应用 beta 回归以随时间对基尼系数建模,并含协变量(任务规模、年龄、类别)及随机效应。
  • 在需要时手动标注顶级数据集论文以识别起源任务。
  • 将数据集起源论文链接到 Microsoft Academic Graph (MAG) 以进行机构分析。

实验结果

研究问题

  • RQ1RQ1: 机器学习任务社区在特定数据集上的集中程度有多高,且随时间有何变化?
  • RQ2RQ2: 研究人员借用其他任务的数据集的频率与创造任务特定数据集的频率有何差异?
  • RQ3RQ3: 哪些机构负责引入最广泛使用的基准数据集,且随时间有何变化?

主要发现

  • 任务社区对少数数据集的集中度不断上升;到2020年中位数基尼系数达到0.60。
  • 在同一任务中的许多论文使用的是最初为其他任务创建的数据集,而非为自身任务创建的数据集。
  • 截至2021年6月,超过50%的数据集使用量可归因于仅十二家机构,显示出强烈的机构集中。
  • 近年来整个PWC数据集的数据集使用基尼集中度上升到超过0.80,反映出跨机构与数据集的不平等日益加剧。
  • 在图像生成与人脸识别领域,使用最频繁的数据集并非最初为这些任务设计,突出了跨任务采用和潜在对齐问题。
  • NLP任务在集中趋势方面显示出一定的缓和,与CV和Methods任务相比在采用/创建模式上存在差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。