Skip to main content
QUICK REVIEW

[论文解读] The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate Harms in Artificial Intelligence

Kasia S. Chmielinski, Sarah Newman|arXiv (Cornell University)|Jan 10, 2022
Nutrition, Genetics, and Disease被引用 28
一句话总结

本文介绍了数据集营养标签的第二代——一个具备上下文感知的互动工具,通过将信息针对 Use Cases 和 Predictions 进行定制,帮助数据科学家评估数据集的适用性并减轻 AI 的有害影响。

ABSTRACT

As the production of and reliance on datasets to produce automated decision-making systems (ADS) increases, so does the need for processes for evaluating and interrogating the underlying data. After launching the Dataset Nutrition Label in 2018, the Data Nutrition Project has made significant updates to the design and purpose of the Label, and is launching an updated Label in late 2020, which is previewed in this paper. The new Label includes context-specific Use Cases &Alerts presented through an updated design and user interface targeted towards the data scientist profile. This paper discusses the harm and bias from underlying training data that the Label is intended to mitigate, the current state of the work including new datasets being labeled, new and existing challenges, and further directions of the work, as well as Figures previewing the new label.

研究动机与目标

  • 激励对训练数据进行审视以在自动化决策系统中减轻有害影响的必要性。
  • 描述第二代数据集营养标签的设计、方法学及组成部分。
  • 展示情境特定的 Use Cases 与 Alerts 如何引导从业者关注相关的数据质量与偏见考量。
  • 展示原型及合作者,以说明该标签在现实世界中的可用性。

提出的方法

  • 描述一个具有三个窗格的新型交互式 GUI:Overview、Use Cases & Alerts 和 Dataset Info。
  • 启用对 Use Case 和 Prediction 的选择,以触发针对所选场景量身定制的 Alerts 和 FYIs。
  • 通过 Dataset Info 窗格提供来自 Datasheets for Datasets 及相关框架的定性文档。
  • 加入带时间戳的 Date 字段,以便在数据集变化时对标签适用性进行情境化。
  • 在真实数据集上展示原型,并计划未来实现更广泛数据集的自动化标签生成。

实验结果

研究问题

  • RQ1数据集营养标签如何适应以体现用例特定风险和缓解需求?
  • RQ2标签的哪些设计变更能改进对从事 ADS 用例的数据科学家的指导?
  • RQ3与第一代相比,第二代标签在可用性与情境化方面如何改进?
  • RQ4在可扩展、自动化标签生成方面的实际挑战与未来方向是什么?

主要发现

  • 第二代标签引入一个带有 Use Cases & Alerts 的交互式 GUI,使信息针对从业者的具体用例和预测进行定制。
  • 标签通过通过三个窗格呈现信息并整合聚焦于所选用例的 Alerts 和 FYIs,强调情境性与可用性。
  • 通过 Dataset Info 窗格提供的定性文档,借鉴 Datasheets for Datasets 及相关框架,以提供溯源和数据收集细节。
  • 原型在如 COVID Tracking Project、纽约市 Evictions 和住房数据,以及黑色素瘤影像数据集(ISIC 2018/2020)等数据集上进行演示。
  • 本工作识别出包括数据集不断变化、专有数据访问,以及向定性内容相对于定量内容的转变等挑战,并计划在未来工作中实现标签生成的自动化并实现用例比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。