[論文レビュー] Navigating Dataset Documentations in AI: A Large-Scale Analysis of Dataset Cards on Hugging Face
本論文は 7,433 件の Hugging Face データセットカードを分析し、文書化の実践がデータセットの人気とどのように関連しているかを理解し、セクションの強調点、トピックテーマ、認識された品質についての洞察を提供します。Usage セクションの影響と、より徹底した文書化の必要性を強調しています。
Advances in machine learning are closely tied to the creation of datasets. While data documentation is widely recognized as essential to the reliability, reproducibility, and transparency of ML, we lack a systematic empirical understanding of current dataset documentation practices. To shed light on this question, here we take Hugging Face -- one of the largest platforms for sharing and collaborating on ML models and datasets -- as a prominent case study. By analyzing all 7,433 dataset documentation on Hugging Face, our investigation provides an overview of the Hugging Face dataset ecosystem and insights into dataset documentation practices, yielding 5 main findings: (1) The dataset card completion rate shows marked heterogeneity correlated with dataset popularity. (2) A granular examination of each section within the dataset card reveals that the practitioners seem to prioritize Dataset Description and Dataset Structure sections, while the Considerations for Using the Data section receives the lowest proportion of content. (3) By analyzing the subsections within each section and utilizing topic modeling to identify key topics, we uncover what is discussed in each section, and underscore significant themes encompassing both technical and social impacts, as well as limitations within the Considerations for Using the Data section. (4) Our findings also highlight the need for improved accessibility and reproducibility of datasets in the Usage sections. (5) In addition, our human annotation evaluation emphasizes the pivotal role of comprehensive dataset content in shaping individuals' perceptions of a dataset card's overall quality. Overall, our study offers a unique perspective on analyzing dataset documentation through large-scale data science analysis and underlines the need for more thorough dataset documentation in machine learning research.
研究の動機と目的
- Hugging Face におけるデータセットカードの採用状況と構造を、コミュニティの規範の反映として評価する。
- 推奨セクションの完成度がデータセットの人気と使用状況にどのように関連するかを定量化する。
- 文書化において実務者が強調する点を特定するため、セクションごとに内容を分析する。
- セクション内のテーマを明らかにするためにトピックモデリングを用い、特に制限事項と社会的影響に焦点を当てる。
- 文書化品質に対する人間の評価が定量的な内容指標とどのように一致するかを評価する。
提案手法
- 2023年3月16日時点の Hugging Face の全 7,433 件の非空データセットカードを分析する。
- 5つのコミュニティ推奨セクションと17のサブセクションの完成率を計算する。
- セクション内の語数と比率を測定し、焦点を評価する(例:Dataset Description、Dataset Structure)。
- Considerations for Using the Data セクションに Latent Dirichlet Allocation (LDA) トピックモデリングを適用する。
- Downloadsへの影響を評価するために、BERTモデルを用いた反実対照分析を行う。
- 7つの側面にわたる人間注釈評価を実施する。
実験結果
リサーチクエスチョン
- RQ1人気度が異なるデータセットに対する、コミュニティ推奨データセットカード構造の完成率はどの程度か?
- RQ2異なるセクションとサブセクションは、認識される品質と測定されたデータセットカードの品質にどう寄与するか?
- RQ3セクション内でどのようなトピックが議論されているか(特に Considerations for Using the Data セクションで)?
- RQ4Usage セクションを含めることは、データセットのダウンロードや利用可能性に影響を与えるか?
- RQ5データセットカードの品質に対する人間の判断は、定量的な内容指標とどのように相関するか?
主な発見
- ダウンロード上位100のデータセットカードの86.0%が5つのコミュニティ推奨セクションをすべて完了しているのに対し、ダウンロードがないデータセットカードの7.9%である。
- 人気のデータセットは、Dataset DescriptionとDataset Structureがそれぞれ36.2%、33.6%を占めるなど長いカードを持ち、Considerations for Using the Data はテキストのわずか2.1%のままである。
- データセットカードの33.2%に Usage セクションが含まれており、5セクションのテンプレートを超える構成で、反実対照分析でダウンロードにプラスの影響を示している。
- 7,433 件の非空データセットカードは、データセットの30.9%に過ぎないにもかかわらず、総ダウンロードトラフィックの95.0%を占める。
- 人間の注釈は、Content Comprehensiveness が認識されたカード品質と強く関連する(相関 0.3935、p値 3.67E-07)、Dataset Description および Structural Organization も有意に寄与する。
- データセットカードの語長は内容の網羅性と相関し、より徹底した文書化がより高い認識品質と関連していることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。