Skip to main content
QUICK REVIEW

[논문 리뷰] A New Massive Multilingual Dataset for High-Performance Language Technologies

Ona de Gibert, Graeme Nail|arXiv (Cornell University)|2024. 03. 20.
Text and Document Classification Technologies인용 수 5
한 줄 요약

HPLT는 75개 언어의 단일언어 데이터(~5.6조 토큰)와 18개 언어쌍의 영어 중심 병렬 데이터(~9,600만 문장쌍), 더불어 합성 피벗 및 웹 크롤링 코퍼라 processing 도구를 포함한 거대 다국어 자원 세트를 공개합니다.

ABSTRACT

We present the HPLT (High Performance Language Technologies) language resources, a new massive multilingual dataset including both monolingual and bilingual corpora extracted from CommonCrawl and previously unused web crawls from the Internet Archive. We describe our methods for data acquisition, management and processing of large corpora, which rely on open-source software tools and high-performance computing. Our monolingual collection focuses on low- to medium-resourced languages and covers 75 languages and a total of ~5.6 trillion word tokens de-duplicated on the document level. Our English-centric parallel corpus is derived from its monolingual counterpart and covers 18 language pairs and more than 96 million aligned sentence pairs with roughly 1.4 billion English tokens. The HPLT language resources are one of the largest open text corpora ever released, providing a great resource for language modeling and machine translation training. We publicly release the corpora, the software, and the tools used in this work.

연구 동기 및 목표

  • 다국어 NLP를 위한 대규모 웹 크롤링 코퍼라의 수집, 처리 및 중복 제거를 위한 확장 가능한 방법론 제공.
  • 사전 학습 및 기계 번역(MT)을 지원하기 위해 CC0 라이선스의 대규모 단일언어 및 병렬 코퍼라를 공개합니다.
  • 재현성 및 연구 커뮤니티의 재사용을 가능하게 하는 데이터 파이프라인, 품질 관리 및 메타데이터를 기술합니다.

제안 방법

  • Internet Archive 크롤(IA WIDE15/16/17) 및 Common Crawl CC40의 데이터 소스.
  • warc2text를 이용한 WARC 기반 텍스트 추출 및 초기 언어 감지.
  • 다중노드 HPC(LUMI)에서 단일언어 및 이중언어 처리의 샤딩 및 파이프라인 오케스트레이션.
  • 언어 식별(FastSpell/Hunspell), 인코딩 보정 및 유창성 점수를 포함한 단일언어 처리 파이프라인(Monotextor).
  • 병렬 텍스트 정렬을 위한 이중언어 후보 생성 파이프라인(Bitextor)로 영어로의 번역(MarianNMT 교사 모델 및 증류)을 이용해 TF/IDF, Bleualign, Biflexer, Bicleaner-AI를 적용.
  • 문서 수준의 근접 중복 제거를 위한 MinHash를 통한 중복 제거 및 재현성을 위해 중복 제거 전후 데이터를 모두 공개.
Figure 1: General overview of the HPLT acquisition and processing pipeline.
Figure 1: General overview of the HPLT acquisition and processing pipeline.

실험 결과

연구 질문

  • RQ1오픈 웹 크롤에서 엄격한 메타데이터와 관리 가능성을 가진 다국어 코퍼라를 웹 규모로 어떻게 구축할 수 있는가?
  • RQ275개 언어와 18개 언어쌍에 대해 얻을 수 있는 단일언어 및 영어 중심 병렬 자원의 규모와 특성은 무엇인가?
  • RQ3후처리 단계(중복 제거, 정제 및 이중언어 방법을 통한 뼈대 설계)가 언어 모델링 및 MT 학습을 위한 데이터 활용도에 얼마나 효과적인가?
  • RQ4영어 중심 쌍을 넘어 다국어 커버리지를 확장하는 합성 다언어 피벗(multiHPLT)의 잠재력은 어떤가?

주요 결과

언어 쌍원시 세그먼트원시 토큰필터링된 세그먼트필터링된 토큰중복 제거된 세그먼트중복 제거된 토큰
Norwegian (nn)28 701 601496 496 331649 4356 308 500132 5382 082 878
Bosnian* (bs)26 998 901521 626 6211 426 67012 439 348240 0122 705 525
Basque (eu)20 830 243400 262 7713 087 45331 739 210610 6879 964 617
Maltese (mt)135 103 4342 820 798 4399 170 421133 140 189854 82018 819 145
Gaelic (ga)101 001 0902 013 971 16715 644 170144 323 574994 74616 327 484
Galician (gl)56 101 4111 015 559 7545 789 36149 604 6551 063 10313 904 758
Macedonian (mk)91 293 1291 868 196 12820 474 476221 370 9981 139 05118 562 461
Albanian (sq)253 098 5465 819 014 14316 729 596144 732 6561 655 95825 831 054
Swahili (sw)247 557 3135 746 490 12324 448 577209 062 0771 710 20520 039 612
Icelandic (is)170 419 0193 266 074 90228 149 571262 486 8232 148 85429 493 241
Serbian* (sr)754 277 46214 249 438 71460 482 286586 909 6554 643 02567 063 293
Chinese (zh)530 119 9839 162 123 04147 852 076510 404 6385 306 57083 811 653
Estonian (et)865 431 22615 476 948 99372 976 009752 767 4716 089 79195 943 562
Catalan (ca)402 492 6268 034 120 32388 434 510882 436 3358 905 889141 859 163
Croatian* (hr)895 785 14216 565 285 999128 145 1321 165 895 9069 310 275138 360 666
Hindi (hi)1 043 856 52519 246 270 565117 341 153996 036 74012 043 069165 139 713
Arabic (ar)1 545 148 80533 199 212 426277 864 5012 307 727 12814 645 128239 377 462
Finnish (fi)3 826 974 19165 312 092 463495 310 6714 186 819 00625 176 462338 063 309
Total------
  • 단일언어 말뭉치(monoHPLT)는 75개 언어를 포괄하며 약 5.6조 토큰과 중복 제거 후 비압축 텍스트가 50.1 TB에 이릅니다.
  • 병렬 말뭉치(biHPLT)는 18개 언어쌍으로 구성되며 9,600만 개 이상의 깨끗하고 중복 제거된 문장쌍과 12억 개가 넘는 영어 토큰을 포함합니다.
  • 합성 다국어 피벗 데이터(multiHPLT)는 영어를 통해 171개 언어쌍 및 약 1억 5700만 개의 문장쌍을 생성합니다.
  • 데이터의 약 3.35%만이 CCMatrix와 겹치고 약 15.72%가 ParaCrawl과 겹친다는 점은 상당한 신규성을 시사합니다.
  • 처리 파이프라인은 언어 식별, 필터링 및 이중언어 후보 품질 관리를 포함하여(Bicleaner AI) 병렬 데이터에서 원시 데이터 대비 약 90%의 크기 감소를 달성합니다.
  • 환경적인 측면: 전체 파이프라인에 필요한 추정 CPU 시간 약 500만 시간 및 GPU 시간 약 5만 시간으로, LUMI의 재생 가능 에너지 맥락과 일치합니다.
Figure 2: Size distribution for the monolingual corpora, organized by language family and language. The volume of texts ranges from 1.0 GB for text classified by CLD2 as Esperanto to 20.3 TB for English, accounting for 41% of the whole collection.
Figure 2: Size distribution for the monolingual corpora, organized by language family and language. The volume of texts ranges from 1.0 GB for text classified by CLD2 as Esperanto to 20.3 TB for English, accounting for 41% of the whole collection.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.