[论文解读] Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus
本文将数据表格框架应用于 BookCorpus,以记录其动机、组成、收集过程及潜在缺陷,强调版权、重复内容和类型偏斜等问题。
Recent literature has underscored the importance of dataset documentation work for machine learning, and part of this work involves addressing "documentation debt" for datasets that have been used widely but documented sparsely. This paper aims to help address documentation debt for BookCorpus, a popular text dataset for training large language models. Notably, researchers have used BookCorpus to train OpenAI's GPT-N models and Google's BERT models, even though little to no documentation exists about the dataset's motivation, composition, collection process, etc. We offer a preliminary datasheet that provides key context and information about BookCorpus, highlighting several notable deficiencies. In particular, we find evidence that (1) BookCorpus likely violates copyright restrictions for many books, (2) BookCorpus contains thousands of duplicated books, and (3) BookCorpus exhibits significant skews in genre representation. We also find hints of other potential deficiencies that call for future research, including problematic content, potential skews in religious representation, and lopsided author contributions. While more work remains, this initial effort to provide a datasheet for BookCorpus adds to growing literature that urges more careful and systematic documentation for machine learning datasets.
研究动机与目标
- 在 ML 研究中激发对数据集文档化的需求(文档债务)。
- 为 BookCorpus 提供结构化的数据表,以捕捉动机、组成、收集与使用注意事项。
- 识别 BookCorpus 的关键缺陷及潜在伦理与法律风险,以指导未来使用。
- 为更好的文档实践和数据集治理的未来研究方向提供建议。
提出的方法
- 将 datasheet 框架(Gebru 等)应用于 BookCorpus,包括关于动机、组成、收集、清洁、用途和分发的问题。
- 收集并比较三个版本的 BookCorpus:原始的 2014 BookCorpus、BookCorpusOpen(2020/2021),以及 Smashwords21 的元数据。
- 系统地分析数据集在版权问题、重复、以及跨体裁和宗教表示的偏斜方面。
- 记录收集过程、许可、同意以及对数据主体的潜在影响。
实验结果
研究问题
- RQ1BookCorpus 的原始动机和用例是什么,谁资助了它的创建?
- RQ2BookCorpus 在书籍、词数和体裁方面的组成如何,且在不同版本之间有何差异?
- RQ3BookCorpus 存在的潜在缺陷与风险(版权、重复、内容敏感性、抽样偏差)有哪些?
- RQ4BookCorpus 如何被收集、清洗、分发和维护,哪些伦理考虑适用?
- RQ5这些发现对在当前及未来的 ML 研究中使用 BookCorpus 有何影响?
主要发现
- BookCorpus 仅存在 7,185 本独立书籍,已识别出 2,930 份重复项。
- 基于观察到的许可声明,BookCorpus 很可能违反了许多书籍的版权限制。
- 存在显著的体裁偏斜,浪漫文学在新版本和 Smashwords21 超集中的表示明显过多。
- 注意到可能有问题内容和宗教表示的偏斜,需要谨慎。
- 数据中发现个人联系信息(电子邮件地址),表明敏感性和隐私考虑。
- BookCorpus 未公开维护;存在多个复制版本(BookCorpusOpen、Smashwords21),访问也较为分散。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。