[論文レビュー] CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data
CCNetは、Common Crawl から大規模で高品質なモノリンガルコーパスを抽出する自動かつスケーラブルなパイプラインを提示します。言語識別と、Wikipedia へのドメイン類似性に基づく新しいモノリンガルフィルタリング手法を備えています。
Pre-training text representations have led to significant improvements in many areas of natural language processing. The quality of these models benefits greatly from the size of the pretraining corpora as long as its quality is preserved. In this paper, we describe an automatic pipeline to extract massive high-quality monolingual datasets from Common Crawl for a variety of languages. Our pipeline follows the data processing introduced in fastText (Mikolov et al., 2017; Grave et al., 2018), that deduplicates documents and identifies their language. We augment this pipeline with a filtering step to select documents that are close to high quality corpora like Wikipedia.
研究の動機と目的
- 低リソース言語を含む多数の言語にわたる言語表現の事前学習のために、高品質で大規模なモノリンガルコーパスの必要性を動機づける。
- Common Crawl から文書構造を保持しつつ、コンテンツを重複排除するエンドツーエンドの前処理パイプラインを説明する。
- Wikipedia のような高品質ソースを近似するため、領域特化型言語モデルを用いたモノリンガルフィルタリング手順を導入する。
- Common Crawl のスナップショット処理に関するスケーラビリティの詳細とリソース見積もりを提供する。
- 異なる言語ターゲットに対してパイプラインを再現・調整するためのデータセットとツールを共有する。
提案手法
- Common Crawl のスナップショットを WET ファイルを 5 GB のシャードにまとめ、各ウェブページを JSON のエントリとして表現する。
- ボイラープレートや非内容テキストを減らすため、シャード内の段落を 64-bit SHA-1 ベースのハッシュを用いて重複排除する。
- 0.5 のスコア閾値で fastText 言語識別子を用いて文書レベルの言語を識別する。
- 言語ごとに対象ドメイン(例: Wikipedia)で言語モデルを学習し、SentencePiece トークナイザーと 5-gram KenLM モデルを使用し、次に各段落のパープレキシティを品質指標として計算する。
- 各言語データをパープレキシティに基づいて上位・中位・下位の三等分に分割し、潜在的に有用なコンテンツを捨てずに品質レベルを近似する。
- 全パイプラインを実行せずに URL リストから出力を再現するリプロデューサーツールを提供する。
実験結果
リサーチクエスチョン
- RQ1スケーラブルなパイプラインは、低リソース言語を含む多くの言語にまたがる膨大なウェブクローリングデータから高品質なモノリンガルコーパスを抽出できるか。
- RQ2高品質ドメインとの類似性(言語モデルのパープレキシティによる)に基づく明示的な品質フィルタリング手順は、下流の表現学習を改善するか。
- RQ3重複排除の順序(LID の前に重複排除 vs 重複排除の前に LID)は、特に低リソース言語に対する言語カバレッジにどう影響するか。
- RQ4大規模な Common Crawl のスナップショットを処理する際のリソースと性能のトレードオフ(時間、RAM)はどの程度か。
- RQ5提案手法でフィルタリングされたコーパスは、Wikipedia や未フィルタリングデータと比較して、下流の言語モデル(BERT 系モデルなど)の性能を改善するか。
主な発見
- このパイプラインは、2019年2月の Common Crawl スナップショットから、174言語にわたる圧縮ドキュメント3.2 TBを得る。
- 処理後、英語だけで約7億の文書と5320億トークンに達する。
- 言語別パープレキシティベースのフィルタリングは、より高品質なブロック(head)と相関し、下流の表現を改善する(例:fastText 埋め込みがより速く強力になる;CCNet データで学習した BERT-BASE モデルは、多言語で XNLI に対して Wikipedia ベースの訓練を上回る)。
- 言語識別の前に重複排除を行うと、逆順と比べて低リソース言語の文書数が著しく改善される。
- Wikipedia と同程度のデータボリュームで CCNet データを用いて BERT-BASE を訓練すると XNLI の性能が向上し、特にウルドゥ語で CCNet を用いると Wikipedia より7ポイント改善される。
- このアプローチは CCNet がスケーラブルな多言語事前学習を可能にし、複数の言語で Wikipedia のみを使用するより品質を向上させることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。