Skip to main content
QUICK REVIEW

[論文レビュー] A New Massive Multilingual Dataset for High-Performance Language Technologies

Ona de Gibert, Graeme Nail|arXiv (Cornell University)|Mar 20, 2024
Text and Document Classification Technologies被引用数 5
ひとこと要約

tldr: HPLT は、多言語リソース群を大規模にリリースし、75言語のモノリンガルデータ(約5.6兆トークン)と18の言語ペアの英語中心のパラレルデータ(約9600万文ペア)、さらにはウェブクロールコーパスの処理用の合成ピボットとツールを提供します。

ABSTRACT

We present the HPLT (High Performance Language Technologies) language resources, a new massive multilingual dataset including both monolingual and bilingual corpora extracted from CommonCrawl and previously unused web crawls from the Internet Archive. We describe our methods for data acquisition, management and processing of large corpora, which rely on open-source software tools and high-performance computing. Our monolingual collection focuses on low- to medium-resourced languages and covers 75 languages and a total of ~5.6 trillion word tokens de-duplicated on the document level. Our English-centric parallel corpus is derived from its monolingual counterpart and covers 18 language pairs and more than 96 million aligned sentence pairs with roughly 1.4 billion English tokens. The HPLT language resources are one of the largest open text corpora ever released, providing a great resource for language modeling and machine translation training. We publicly release the corpora, the software, and the tools used in this work.

研究の動機と目的

  • 大規模なウェブクロールコーパスを多言語NLPのために収集、処理、重複排除するスケーラブルな方法論を提供する。
  • 低〜中リソース言語をサポートするためのオープンでCC0ライセンスのモノリンガルおよびパラレルコーパスをリリースする。
  • データパイプライン、品質管理、および再現性と再利用性を研究コミュニティに提供するメタデータを説明する。

提案手法

  • Internet Archiveのクローリング(IA WIDE15/16/17)およびCommon Crawl CC40 からのデータソース。
  • warc2text を用いたWARCベースのテキスト抽出と初期言語検出。
  • モノリンガルおよびバイリンガル処理のためのHPC(LUMI)でのシャーディングとパイプラインオーケストレーション。
  • モノリンガル処理パイプライン(Monotextor)による言語識別(FastSpell/Hunspell)、エンコードの修正、流暢性スコア付け。
  • 並列テキスト整列のためのバイテキスト抽出パイプライン(Bitextor)と英語への翻訳(MarianNMT 教師モデルの蒸留を含む)を用いたTF/IDF、Bleualign、Biflexer、Bicleaner-AI。
  • デ duplicatio n による近似重複をMinHashで検出・除去することで、再現性のためのデータを重複除去後および除去前のデータとしてリリース。
Figure 1: General overview of the HPLT acquisition and processing pipeline.
Figure 1: General overview of the HPLT acquisition and processing pipeline.

実験結果

リサーチクエスチョン

  • RQ1ウェブ規模の多言語コーパスを、厳密なメタデータと管理性を確保してどのように構築できるか。
  • RQ275言語と18言語ペアで入手可能なモノリンガルおよび英語中心のパラレルリソースの規模と特徴は何か。
  • RQ3データの後処理(重複排除、クリーニング、バイト帯の方法によるスキャフォルディング)が言語モデル学習およびMTトレーニングのデータ利用性をどの程度改善するか。
  • RQ4合成的な多言語ピボット(multiHPLT)が英語中心ペアを超える言語カバレッジを拡大する可能性は何か。

主な発見

言語ペア生データセグメント生データトークンフィルタ後セグメントフィルタ後トークン重複除外後セグメント重複除外後トークン
Norwegian (nn)28 701 601496 496 331649 4356 308 500132 5382 082 878
Bosnian* (bs)26 998 901521 626 6211 426 67012 439 348240 0122 705 525
Basque (eu)20 830 243400 262 7713 087 45331 739 210610 6879 964 617
Maltese (mt)135 103 4342 820 798 4399 170 421133 140 189854 82018 819 145
Gaelic (ga)101 001 0902 013 971 16715 644 170144 323 574994 74616 327 484
Galician (gl)56 101 4111 015 559 7545 789 36149 604 6551 063 10313 904 758
Macedonian (mk)91 293 1291 868 196 12820 474 476221 370 9981 139 05118 562 461
Albanian (sq)253 098 5465 819 014 14316 729 596144 732 6561 655 95825 831 054
Swahili (sw)247 557 3135 746 490 12324 448 577209 062 0771 710 20520 039 612
Icelandic (is)170 419 0193 266 074 90228 149 571262 486 8232 148 85429 493 241
Serbian* (sr)754 277 46214 249 438 71460 482 286586 909 6554 643 02567 063 293
Chinese (zh)530 119 9839 162 123 04147 852 076510 404 6385 306 57083 811 653
Estonian (et)865 431 22615 476 948 99372 976 009752 767 4716 089 79195 943 562
Catalan (ca)402 492 6268 034 120 32388 434 510882 436 3358 905 889141 859 163
Croatian* (hr)895 785 14216 565 285 999128 145 1321 165 895 9069 310 275138 360 666
Hindi (hi)1 043 856 52519 246 270 565117 341 153996 036 74012 043 069165 139 713
Arabic (ar)1 545 148 80533 199 212 426277 864 5012 307 727 12814 645 128239 377 462
Finnish (fi)3 826 974 19165 312 092 463495 310 6714 186 819 00625 176 462338 063 309
Total------
  • モノリンガルコーパス(monoHPLT)は75言語をカバーし、約5.6兆トークン、デ-デュプリケーション後の非圧縮テキストは約50.1 TB。
  • パラレルコーパス(biHPLT)は18言語ペアを含み、1,000万を超えるクリーンでデ-デュプリケーション済み文ペアと14億を超える英語トークンを含む。
  • 合成的な多言語ピボットデータ(multiHPLT)は英語を介して171言語ペア、約157百万文ペアを生み出す。
  • 公開データのノートとして、CCMatrixとParaCrawlとの重複はそれぞれ約3.35%および約15.72%に留まり、 substantial な新規性を示す。
  • 処理パイプラインには言語識別、フィルタリング、バイリンガル候補品質管理(Bicleaner AI)を組み込み、並列データの生データからフィルター後までのデータ量を約90%削減する。
  • 環境負荷面では、全パイプラインの推定CPU時間約500万時間、GPU時間約5万時間が必要とされ、LUMIの再生可能エネルギーコンテキストを背景にする。
Figure 2: Size distribution for the monolingual corpora, organized by language family and language. The volume of texts ranges from 1.0 GB for text classified by CLD2 as Esperanto to 20.3 TB for English, accounting for 41% of the whole collection.
Figure 2: Size distribution for the monolingual corpora, organized by language family and language. The volume of texts ranges from 1.0 GB for text classified by CLD2 as Esperanto to 20.3 TB for English, accounting for 41% of the whole collection.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。