[論文レビュー] The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset
この論文は ROOTS コーパスの作成、キュレーション、分析を記録するもので、BLOOM の訓練に用いられる 1.6TB の多言語テキストデータセットを、59 言語と 13 のプログラミング言語にわたるデータソーシング、処理パイプライン、品質管理を詳述する。
As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.
研究の動機と目的
- 大規模でオープン、倫理・ガバナンスの観点と整合した多言語データセットの作成を動機づける。
- ROOTS のデータソーシングプロセスと構成(コミュニティ選定ソースと OSCAR由来データを含む)を説明する。
- クラウドソースデータセットに適用された処理と品質改善パイプラインを説明する。
- 個人識別情報の除去と重複排除の手順を詳述する。
- ROOTS コーパスに対する初期分析と将来の研究を支援するツールを提供する。
提案手法
- ROOTS を 62% がコミュニティ識別ソース、38% が OSCAR由来データから組み合わせ、1.6TB の多言語コーパスに組み立てる。
- 2 段階のデータ収集パイプラインを実装:ソースを収集し、テキストとメタデータフィールドを含む統一フォーマットにマッピングする。
- ノイズを減らし重複を排除するための、文書・データセット単位のクリーニングとフィルタリング機能を備えた多段階処理パイプラインを適用する。
- Common Crawl のスナップショットを用いたウェブドメインの擬似クロール、HTML テキスト抽出、ドメインレベルのフィルタリングルールを実施する。
- OSCAR データは言語特有の品質指標とネイティブスピーカ閾値でフィルタリングして、低品質または非自然言語コンテンツを除去する。
実験結果
リサーチクエスチョン
- RQ1多様なデータソースから大規模な多言語コーパスを組み立てつつ、文書化とガバナンスを維持するにはどうすればよいか。
- RQ2クラウドソースやウェブ収集テキストの品質向上とノイズ低減に有効な処理・フィルタリング戦略は何か。
- RQ3大規模言語モデル訓練を目的とした 1.6TB の多言語コーパスの言語的・コーディング言語構成はどうか。
- RQ4重複排除と PII フィルタリングは、データセットの品質と多言語 LM 訓練への有用性にどう影響するか。
主な発見
- ROOTS コーパスは総計 1.6TB で、59 言語と 13 のプログラミング言語を含む。
- 最終データセットは 62% がコミュニティ選択ソース、38% が OSCAR由来データで構成される。
- 多段階のデータ収集と詳細な処理パイプラインにより、クリーニングと重複排除後に 485 の非空データセットを得た。
- OSCAR データについては、言語特有のフィルタとネイティブスピーカ閾値により、低品質または成人向けコンテンツの大部分を除去し、言語依存の除去率を報告している。
- コードデータは高度に近似重複を示し、重複排除ステップ後にデータの 32% が近似重複と識別された。
- トークナイザ解析は、要素データセットが既存コーパスとどのように整合するか、または逸脱するかを示し、モデルのトークン化を検討する際の指針となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。