Skip to main content
QUICK REVIEW

[论文解读] Navigating Dataset Documentations in AI: A Large-Scale Analysis of Dataset Cards on Hugging Face

Xinyu Yang, Weixin Liang|arXiv (Cornell University)|Jan 24, 2024
Explainable Artificial Intelligence (XAI)被引用 6
一句话总结

本论文分析 7,433 个 Hugging Face 数据集卡片,以理解文档实践与数据集受欢迎程度之间的关系,并对章节重点、主题、以及感知质量给出见解。它强调了 Usage 部分的影响以及需要更全面的文档。

ABSTRACT

Advances in machine learning are closely tied to the creation of datasets. While data documentation is widely recognized as essential to the reliability, reproducibility, and transparency of ML, we lack a systematic empirical understanding of current dataset documentation practices. To shed light on this question, here we take Hugging Face -- one of the largest platforms for sharing and collaborating on ML models and datasets -- as a prominent case study. By analyzing all 7,433 dataset documentation on Hugging Face, our investigation provides an overview of the Hugging Face dataset ecosystem and insights into dataset documentation practices, yielding 5 main findings: (1) The dataset card completion rate shows marked heterogeneity correlated with dataset popularity. (2) A granular examination of each section within the dataset card reveals that the practitioners seem to prioritize Dataset Description and Dataset Structure sections, while the Considerations for Using the Data section receives the lowest proportion of content. (3) By analyzing the subsections within each section and utilizing topic modeling to identify key topics, we uncover what is discussed in each section, and underscore significant themes encompassing both technical and social impacts, as well as limitations within the Considerations for Using the Data section. (4) Our findings also highlight the need for improved accessibility and reproducibility of datasets in the Usage sections. (5) In addition, our human annotation evaluation emphasizes the pivotal role of comprehensive dataset content in shaping individuals' perceptions of a dataset card's overall quality. Overall, our study offers a unique perspective on analyzing dataset documentation through large-scale data science analysis and underlines the need for more thorough dataset documentation in machine learning research.

研究动机与目标

  • 评估 Hugging Face 上数据集卡片的采用情况与结构,作为社区规范的反映。
  • 量化建议章节的完成度与数据集受欢迎程度和使用情况之间的关系。
  • 逐节分析内容,以识别从业者在文档中强调的要点。
  • 使用主题建模揭示各个章节中的主题,特别是局限性与社会影响。
  • 评估人类对文档质量的判断与量化内容指标之间的一致性。

提出的方法

  • 分析截至 2023 年 3 月 16 日,Hugging Face 上的所有 7,433 个非空数据集卡片。
  • 计算五个社区认可的章节及 17 个子章节的完成率。
  • 衡量各章节的字数与比例,以评估关注点(如 Dataset Description、Dataset Structure)。
  • 对 Considerations for Using the Data 部分应用 Latent Dirichlet Allocation (LDA) 主题建模。
  • 使用 BERT 模型进行对照分析,以评估 Usage 部分对下载量的影响。
  • 在七个方面进行人工注释评估,以将感知质量与内容完整性联系起来。

实验结果

研究问题

  • RQ1在不同受欢迎程度的数据集上,社区认可的数据集卡片结构的完成率是多少?
  • RQ2不同章节和子章节如何影响感知和量化的数据集卡片质量?
  • RQ3各章节内讨论了哪些主题,特别是 Considerations for Using the Data 部分?
  • RQ4包含 Usage 部分是否会影响数据集下载量或可访问性?
  • RQ5人类对数据集卡片质量的判断与量化内容指标之间的相关性如何?

主要发现

  • 前 100 个下载量最高的数据集卡片中,86.0% 完成了五个社区认可的章节;而无下载的数据集卡片中为 7.9%。
  • 流行数据集的卡片更长,Content 中 Dataset Description 与 Dataset Structure 占比为 36.2% 和 33.6%,而 Considerations for Using the Data 仅占文本的 2.1%。
  • 33.2% 的数据集卡片包含 Usage 部分,超出五个章节模板,且在对照分析中对下载量有积极影响。
  • 7,433 个非空数据集卡片占总下载流量的 95.0%,尽管只有 30.9% 的数据集有非空卡片。
  • 人工注释显示内容完整性与感知卡片质量有强相关性(相关系数 0.3935,p 值 3.67E-07),其中 Dataset Description 和 Structural Organization 也有显著贡献。
  • 数据集卡片的字数与内容完整性相关,表明更彻底的文档与更高的感知质量相关。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。