[논문 리뷰] A New Massive Multilingual Dataset for High-Performance Language Technologies
HPLT는 75개 언어의 단일언어 데이터(~5.6조 토큰)와 18개 언어쌍의 영어 중심 병렬 데이터(~9,600만 문장쌍), 더불어 합성 피벗 및 웹 크롤링 코퍼라 processing 도구를 포함한 거대 다국어 자원 세트를 공개합니다.
We present the HPLT (High Performance Language Technologies) language resources, a new massive multilingual dataset including both monolingual and bilingual corpora extracted from CommonCrawl and previously unused web crawls from the Internet Archive. We describe our methods for data acquisition, management and processing of large corpora, which rely on open-source software tools and high-performance computing. Our monolingual collection focuses on low- to medium-resourced languages and covers 75 languages and a total of ~5.6 trillion word tokens de-duplicated on the document level. Our English-centric parallel corpus is derived from its monolingual counterpart and covers 18 language pairs and more than 96 million aligned sentence pairs with roughly 1.4 billion English tokens. The HPLT language resources are one of the largest open text corpora ever released, providing a great resource for language modeling and machine translation training. We publicly release the corpora, the software, and the tools used in this work.
연구 동기 및 목표
- 다국어 NLP를 위한 대규모 웹 크롤링 코퍼라의 수집, 처리 및 중복 제거를 위한 확장 가능한 방법론 제공.
- 사전 학습 및 기계 번역(MT)을 지원하기 위해 CC0 라이선스의 대규모 단일언어 및 병렬 코퍼라를 공개합니다.
- 재현성 및 연구 커뮤니티의 재사용을 가능하게 하는 데이터 파이프라인, 품질 관리 및 메타데이터를 기술합니다.
제안 방법
- Internet Archive 크롤(IA WIDE15/16/17) 및 Common Crawl CC40의 데이터 소스.
- warc2text를 이용한 WARC 기반 텍스트 추출 및 초기 언어 감지.
- 다중노드 HPC(LUMI)에서 단일언어 및 이중언어 처리의 샤딩 및 파이프라인 오케스트레이션.
- 언어 식별(FastSpell/Hunspell), 인코딩 보정 및 유창성 점수를 포함한 단일언어 처리 파이프라인(Monotextor).
- 병렬 텍스트 정렬을 위한 이중언어 후보 생성 파이프라인(Bitextor)로 영어로의 번역(MarianNMT 교사 모델 및 증류)을 이용해 TF/IDF, Bleualign, Biflexer, Bicleaner-AI를 적용.
- 문서 수준의 근접 중복 제거를 위한 MinHash를 통한 중복 제거 및 재현성을 위해 중복 제거 전후 데이터를 모두 공개.

실험 결과
연구 질문
- RQ1오픈 웹 크롤에서 엄격한 메타데이터와 관리 가능성을 가진 다국어 코퍼라를 웹 규모로 어떻게 구축할 수 있는가?
- RQ275개 언어와 18개 언어쌍에 대해 얻을 수 있는 단일언어 및 영어 중심 병렬 자원의 규모와 특성은 무엇인가?
- RQ3후처리 단계(중복 제거, 정제 및 이중언어 방법을 통한 뼈대 설계)가 언어 모델링 및 MT 학습을 위한 데이터 활용도에 얼마나 효과적인가?
- RQ4영어 중심 쌍을 넘어 다국어 커버리지를 확장하는 합성 다언어 피벗(multiHPLT)의 잠재력은 어떤가?
주요 결과
| 언어 쌍 | 원시 세그먼트 | 원시 토큰 | 필터링된 세그먼트 | 필터링된 토큰 | 중복 제거된 세그먼트 | 중복 제거된 토큰 |
|---|---|---|---|---|---|---|
| Norwegian (nn) | 28 701 601 | 496 496 331 | 649 435 | 6 308 500 | 132 538 | 2 082 878 |
| Bosnian* (bs) | 26 998 901 | 521 626 621 | 1 426 670 | 12 439 348 | 240 012 | 2 705 525 |
| Basque (eu) | 20 830 243 | 400 262 771 | 3 087 453 | 31 739 210 | 610 687 | 9 964 617 |
| Maltese (mt) | 135 103 434 | 2 820 798 439 | 9 170 421 | 133 140 189 | 854 820 | 18 819 145 |
| Gaelic (ga) | 101 001 090 | 2 013 971 167 | 15 644 170 | 144 323 574 | 994 746 | 16 327 484 |
| Galician (gl) | 56 101 411 | 1 015 559 754 | 5 789 361 | 49 604 655 | 1 063 103 | 13 904 758 |
| Macedonian (mk) | 91 293 129 | 1 868 196 128 | 20 474 476 | 221 370 998 | 1 139 051 | 18 562 461 |
| Albanian (sq) | 253 098 546 | 5 819 014 143 | 16 729 596 | 144 732 656 | 1 655 958 | 25 831 054 |
| Swahili (sw) | 247 557 313 | 5 746 490 123 | 24 448 577 | 209 062 077 | 1 710 205 | 20 039 612 |
| Icelandic (is) | 170 419 019 | 3 266 074 902 | 28 149 571 | 262 486 823 | 2 148 854 | 29 493 241 |
| Serbian* (sr) | 754 277 462 | 14 249 438 714 | 60 482 286 | 586 909 655 | 4 643 025 | 67 063 293 |
| Chinese (zh) | 530 119 983 | 9 162 123 041 | 47 852 076 | 510 404 638 | 5 306 570 | 83 811 653 |
| Estonian (et) | 865 431 226 | 15 476 948 993 | 72 976 009 | 752 767 471 | 6 089 791 | 95 943 562 |
| Catalan (ca) | 402 492 626 | 8 034 120 323 | 88 434 510 | 882 436 335 | 8 905 889 | 141 859 163 |
| Croatian* (hr) | 895 785 142 | 16 565 285 999 | 128 145 132 | 1 165 895 906 | 9 310 275 | 138 360 666 |
| Hindi (hi) | 1 043 856 525 | 19 246 270 565 | 117 341 153 | 996 036 740 | 12 043 069 | 165 139 713 |
| Arabic (ar) | 1 545 148 805 | 33 199 212 426 | 277 864 501 | 2 307 727 128 | 14 645 128 | 239 377 462 |
| Finnish (fi) | 3 826 974 191 | 65 312 092 463 | 495 310 671 | 4 186 819 006 | 25 176 462 | 338 063 309 |
| Total | - | - | - | - | - | - |
- 단일언어 말뭉치(monoHPLT)는 75개 언어를 포괄하며 약 5.6조 토큰과 중복 제거 후 비압축 텍스트가 50.1 TB에 이릅니다.
- 병렬 말뭉치(biHPLT)는 18개 언어쌍으로 구성되며 9,600만 개 이상의 깨끗하고 중복 제거된 문장쌍과 12억 개가 넘는 영어 토큰을 포함합니다.
- 합성 다국어 피벗 데이터(multiHPLT)는 영어를 통해 171개 언어쌍 및 약 1억 5700만 개의 문장쌍을 생성합니다.
- 데이터의 약 3.35%만이 CCMatrix와 겹치고 약 15.72%가 ParaCrawl과 겹친다는 점은 상당한 신규성을 시사합니다.
- 처리 파이프라인은 언어 식별, 필터링 및 이중언어 후보 품질 관리를 포함하여(Bicleaner AI) 병렬 데이터에서 원시 데이터 대비 약 90%의 크기 감소를 달성합니다.
- 환경적인 측면: 전체 파이프라인에 필요한 추정 CPU 시간 약 500만 시간 및 GPU 시간 약 5만 시간으로, LUMI의 재생 가능 에너지 맥락과 일치합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.