QUICK REVIEW

[论文解读] CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data

Guillaume Wenzek, Marie-Anne Lachaux|arXiv (Cornell University)|Nov 1, 2019

Natural Language Processing Techniques参考文献 14被引用 242

一句话总结

CCNet 提出一种自动、可扩展的管线，从 Common Crawl 提取大规模、质量高的单语语料库，具语言识别和基于维基百科的单语过滤的新颖步骤，用于跨多语言的预训练。

ABSTRACT

Pre-training text representations have led to significant improvements in many areas of natural language processing. The quality of these models benefits greatly from the size of the pretraining corpora as long as its quality is preserved. In this paper, we describe an automatic pipeline to extract massive high-quality monolingual datasets from Common Crawl for a variety of languages. Our pipeline follows the data processing introduced in fastText (Mikolov et al., 2017; Grave et al., 2018), that deduplicates documents and identifies their language. We augment this pipeline with a filtering step to select documents that are close to high quality corpora like Wikipedia.

研究动机与目标

说明需要高质量、大规模单语语料库用于跨多语言（包括低资源语言）的语言表示预训练的动机。
描述一个端到端的预处理管线，保留文档结构并对 Common Crawl 的内容进行去重。
引入基于领域特定语言模型的单语过滤步骤，以近似高质量来源如维基百科。
提供处理 Common Crawl 快照的可扩展性细节和资源估算。
分享数据集和工具，以便复现并为不同语言目标定制管线。

提出的方法

通过将 WET 文件分组为 5 GB 片并将每个网页表示为 JSON 条目来处理 Common Crawl 快照。
在一个分块内使用基于 64 位 SHA-1 的哈希进行段落去重，以减少樣板文本和非内容文本。
使用 fastText 语言识别器在文档级别识别语言，阈值为 0.5 分数。
针对目标语言的领域（如维基百科）训练语言模型，使用 SentencePiece 词法器和一个 5-gram 的 KenLM 模型，然后计算每段落的困惑度作为质量分数。
将每种语言的数据按困惑度分为头部/中部/尾部三分位，以在不丢弃潜在有用内容的前提下近似质量水平。
提供一个复现工具，从 URL 列表中重建输出，方便在不运行完整管线的情况下使用。

实验结果

研究问题

RQ1一个可扩展的管线是否能够从大规模的网页爬取数据中提取高质量的单语语料，覆盖多语言包括低资源语言？
RQ2基于高质量领域（通过语言模型困惑度）的显式质量过滤步骤，是否能改善下游表示学习？
RQ3去重顺序（在 LID 之前去重 vs 在去重之前做 LID）如何影响语言覆盖，尤其是对低资源语言？
RQ4处理大型 Common Crawl 快照的资源和性能权衡（时间、RAM）是什么？
RQ5与维基百科或未过滤数据相比，经所提出方法过滤的语料是否能提升下游语言模型性能（如 BERT 式模型）？

主要发现

该管线在 2019 年 2 月的 Common Crawl 快照中产出 3.2 TB 的压缩文档，涵盖 174 种语言。
仅英文在处理后就约有 7 亿份文档和 5320 亿个标记。
基于 per-language 困惑度的过滤与更高质量的块（头部）相关，并改善下游表示（例如更快/更强的 fastText 表示；在 XNLI 上用 CCNet 数据训练的 BERT-BASE 模型在多种语言上优于基于维基百科的训练）。
在语言识别之前进行去重相比于相反顺序显著提高了低资源语言的文档数量。
用与维基百科数据量相当的数据量在 CCNet 上训练 BERT-BASE，在 XNLI 上取得性能提升，尤其是在乌尔都语使用 CCNet 而非维基百科时提高了 7 点。
该方法表明 CCNet 能实现可扩展的多语言预训练，并在若干语言上改进了相较仅使用维基百科的质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。