Skip to main content
QUICK REVIEW

[論文レビュー] Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus

Jack Bandy, Nicholas Vincent|arXiv (Cornell University)|May 11, 2021
Topic Modeling参考文献 18被引用数 33
ひとこと要約

本論文は datasheet フレームワークを BookCorpus に適用し、その動機・構成・収集・潜在的な欠陥を文書化し、著作権、重複、およびジャンル偏りの懸念を強調します。

ABSTRACT

Recent literature has underscored the importance of dataset documentation work for machine learning, and part of this work involves addressing "documentation debt" for datasets that have been used widely but documented sparsely. This paper aims to help address documentation debt for BookCorpus, a popular text dataset for training large language models. Notably, researchers have used BookCorpus to train OpenAI's GPT-N models and Google's BERT models, even though little to no documentation exists about the dataset's motivation, composition, collection process, etc. We offer a preliminary datasheet that provides key context and information about BookCorpus, highlighting several notable deficiencies. In particular, we find evidence that (1) BookCorpus likely violates copyright restrictions for many books, (2) BookCorpus contains thousands of duplicated books, and (3) BookCorpus exhibits significant skews in genre representation. We also find hints of other potential deficiencies that call for future research, including problematic content, potential skews in religious representation, and lopsided author contributions. While more work remains, this initial effort to provide a datasheet for BookCorpus adds to growing literature that urges more careful and systematic documentation for machine learning datasets.

研究の動機と目的

  • ML 研究におけるデータセット文書化の必要性を喚起する(documentation debt)。
  • BookCorpus の動機・構成・収集・使用上の考慮事項を捉えるための構造化されたデータシートを提供する。
  • 今後の利用を導くために、BookCorpus の主要な欠陥と潜在的な倫理的・法的リスクを特定する。
  • データセットガバナンスにおけるより良い文書化実践と将来の研究方向性について提言を行う。

提案手法

  • BookCorpus に datasheet フレームワーク(Gebru ら)を適用し、動機・構成・収集・クリーニング・用途・配布に関する質問を含める。
  • 元の 2014 BookCorpus、BookCorpusOpen (2020/2021)、および Smashwords21 メタデータの3つのバージョンを収集・比較する。
  • 著作権問題、重複、およびジャンル別・宗教表現の偏りを体系的に分析する。
  • 収集プロセス、ライセンス、同意、およびデータ主体に対する潜在的影響を文書化する。

実験結果

リサーチクエスチョン

  • RQ1BookCorpus の元々の動機と利用ケースは何か、そしてその作成を資金提供したのは誰か?
  • RQ2BookCorpus の構成は書籍・語数・ジャンルの観点でどうなっており、バージョンごとにどう変化するか?
  • RQ3BookCorpus に存在する潜在的な欠陥とリスク(著作権、重複、コンテンツの機微さ、サンプリング・バイアス)は何か?
  • RQ4BookCorpus はどのように収集・清掃・配布・維持され、どの倫理的配慮が適用されるか?
  • RQ5これらの発見が現在および将来の ML 研究における BookCorpus の利用にどのような含意を持つか?

主な発見

  • Only 7,185 unique books exist in BookCorpus, with 2,930 duplicates identified.
  • BookCorpus likely violates copyright restrictions for many books, based on observed licensing statements.
  • Significant genre skew exists, with Romance substantially over-represented compared to newer copies and the Smashwords21 superset.
  • Presence of potentially problematic content and skewed religious representation noted, requiring caution.
  • Personal contact information (email addresses) found in the data, indicating sensitivity and privacy considerations.
  • BookCorpus is not publicly maintained; multiple replication versions exist (BookCorpusOpen, Smashwords21) and access is fragmented.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。