QUICK REVIEW

[论文解读] Data and its (dis)contents: A survey of dataset development and use in machine learning research

Amandalynne Paullada, Inioluwa Deborah Raji|arXiv (Cornell University)|Dec 9, 2020

Ethics and Social Impacts of AI参考文献 173被引用 461

一句话总结

本文批判性地审视了机器学习研究中数据集的作用，认为当前的数据收集、标注和基准测试实践加剧了偏见、虚假相关性以及伦理问题。文章主张推动一种范式转变，即更加谨慎、注重上下文并具备伦理责任感的数据集开发方式，优先考虑代表性、透明度和对数据主体的尊重，而非规模和性能指标。

ABSTRACT

Datasets have played a foundational role in the advancement of machine learning research. They form the basis for the models we design and deploy, as well as our primary medium for benchmarking and evaluation. Furthermore, the ways in which we collect, construct and share these datasets inform the kinds of problems the field pursues and the methods explored in algorithm development. However, recent work from a breadth of perspectives has revealed the limitations of predominant practices in dataset collection and use. In this paper, we survey the many concerns raised about the way we collect and use data in machine learning and advocate that a more cautious and thorough understanding of data is necessary to address several of the practical and ethical issues of the field.

研究动机与目标

识别并分析数据集设计与使用中的系统性缺陷，这些缺陷损害了机器学习研究的有效性与伦理性。
强调当前数据收集实践（尤其是网络爬取和众包）如何掩盖人力劳动、偏见和语境依赖性。
批判性地审视基准数据集作为研究进展驱动力的过度依赖，这些基准往往优先考虑性能而非现实相关性和公平性。
倡导机器学习研究文化向更具语境基础、伦理来源和透明记录的数据集转变。
强调需要超越基准测试的更广泛评估框架，以支持公平且负责任的人工智开发。

提出的方法

对自然语言处理和计算机视觉领域中与数据集相关问题的近期文献进行全面调查。
将批评意见归类为四个主题：代表性偏差、虚假相关性、任务框架缺陷以及文档记录与标注实践不佳。
通过分析存在缺陷的数据集案例（例如，ImageNet、OntoNotes、毒性数据集）来说明数据构建中的系统性问题。
评估诸如对抗性数据集和数据增强等技术解决方案的提出，同时批判其在解决根本问题上的局限性。
调查关于数据重用、法律风险以及机器学习研究中数据管理实践的更广泛机构与文化批判。
倡导一种研究文化，重视语境、知情同意和跨学科合作，而非单纯追求规模和排行榜表现。

实验结果

研究问题

RQ1机器学习数据集中存在的代表性偏差在多大程度上反映了并强化了社会不平等？
RQ2基准数据集中虚假相关性在多大程度上使模型能够‘投机取巧’完成任务，而无需真正掌握有意义的能力？
RQ3为何当前以基准测试为导向的研究文化对科学研究进展和伦理化部署构成问题？
RQ4在未经同意的情况下大规模进行网络爬取并重用数据，会带来哪些伦理与法律风险？
RQ5如何改革数据集开发，以优先考虑语境、透明度和对数据主体的尊重？

主要发现

像ImageNet和OntoNotes这样的知名数据集显著低估了边缘化社会人口群体，包括深色皮肤个体和女性代词。
数据集经常编码有害刻板印象——例如，在视觉和语言数据中将职业与性别产生性别关联——导致模型行为产生偏见。
发现ImageNet数据集包含数百万张被贴上种族侮辱性术语和贬损性词汇的图像，导致部分数据集被移除。
许多基准数据集因虚假相关性（例如，包含‘gay’的文本被标记为有毒）而可被‘破解’，从而削弱了模型泛化能力的主张。
当前的数据收集实践常常掩盖了数据集创建过程中涉及的人力、语境和主观性，导致透明度和问责制缺失。
事后的数据修复措施（如对抗性数据生成或过滤）无法解决代表性、语境和伦理来源等更深层次的问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。