QUICK REVIEW

[论文解读] The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

Hugo Laurençon, Lucile Saulnier|arXiv (Cornell University)|Mar 7, 2023

Topic Modeling参考文献 100被引用 65

一句话总结

本文记录了 ROOTS 语料库的创建、编目与分析。ROOTS 是一个用于训练 BLOOM 的 1.6TB 多语言文本数据集，详细说明了数据来源、处理流程和跨 59 种语言与 13 种编程语言的质量控制。

ABSTRACT

As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.

研究动机与目标

推动创建一个大型、开放、多语言的数据集，并与伦理与治理考量保持一致。
描述数据来源过程和 ROOTS 的组成，包括社区选择的来源和 OSCAR 衍生的数据。
解释应用于众包数据集的处理与质量提升流程。
详细说明去重和个人可识别信息移除的步骤。
提供初步分析和工具，以促成对 ROOTS 语料库的进一步研究。

提出的方法

将 ROOTS 组装自 62% 社区识别来源和 38% OSCAR 衍生数据，形成 1.6TB 的多语言语料库。
实现两阶段数据采集流程：收集来源并映射到包含文本和元数据字段的统一格式。
应用多阶段处理流程，包含面向文档与数据集的清洗与筛选函数，以降低噪声并去重数据。
通过 Common Crawl 快照进行伪抓取网络域，提取 HTML 文本，并应用域级过滤规则。
使用语言特定的质量指示和母语者阈值对 OSCAR 数据进行过滤，以去除低质量或非自然语言内容。

实验结果

研究问题

RQ1如何在保持文档性与治理的前提下，从多样数据源组装出大规模的多语言语料？
RQ2哪些处理与过滤策略在提高质量、减少来自众包和网页抓取的文本噪声方面有效？
RQ3用于大规模语言模型训练的 1.6TB 多语言语料在语言学和编程语言组成上是如何的？
RQ4去重和个人可识别信息过滤如何影响数据集的质量及对多语言语言模型训练的有用性？

主要发现

ROOTS 语料库总计 1.6TB，涵盖 59 种语言和 13 种编程语言。
最终数据集包括 62% 的社区选择来源和 38% 的 OSCAR 衍生数据。
多阶段数据收集和详细的处理流程在清洗与去重后产生了 485 个非空数据集。
对于 OSCAR 数据，语言特定过滤和母语者阈值移除大量低质量或色情内容，报告了依语言的移除率。
代码数据表现出显著的近重复性，去重步骤后有 32% 的数据被识别为近重复。
分词器分析显示各组成数据集如何与现有语料对齐或偏离，为模型分词的考虑提供信息。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。