QUICK REVIEW

[논문 리뷰] A New Massive Multilingual Dataset for High-Performance Language Technologies

Ona de Gibert, Graeme Nail|arXiv (Cornell University)|2024. 03. 20.

Text and Document Classification Technologies인용 수 5

한 줄 요약

HPLT는 75개 언어의 단일언어 데이터(~5.6조 토큰)와 18개 언어쌍의 영어 중심 병렬 데이터(~9,600만 문장쌍), 더불어 합성 피벗 및 웹 크롤링 코퍼라 processing 도구를 포함한 거대 다국어 자원 세트를 공개합니다.

ABSTRACT

We present the HPLT (High Performance Language Technologies) language resources, a new massive multilingual dataset including both monolingual and bilingual corpora extracted from CommonCrawl and previously unused web crawls from the Internet Archive. We describe our methods for data acquisition, management and processing of large corpora, which rely on open-source software tools and high-performance computing. Our monolingual collection focuses on low- to medium-resourced languages and covers 75 languages and a total of ~5.6 trillion word tokens de-duplicated on the document level. Our English-centric parallel corpus is derived from its monolingual counterpart and covers 18 language pairs and more than 96 million aligned sentence pairs with roughly 1.4 billion English tokens. The HPLT language resources are one of the largest open text corpora ever released, providing a great resource for language modeling and machine translation training. We publicly release the corpora, the software, and the tools used in this work.

연구 동기 및 목표

다국어 NLP를 위한 대규모 웹 크롤링 코퍼라의 수집, 처리 및 중복 제거를 위한 확장 가능한 방법론 제공.
사전 학습 및 기계 번역(MT)을 지원하기 위해 CC0 라이선스의 대규모 단일언어 및 병렬 코퍼라를 공개합니다.
재현성 및 연구 커뮤니티의 재사용을 가능하게 하는 데이터 파이프라인, 품질 관리 및 메타데이터를 기술합니다.

제안 방법

Internet Archive 크롤(IA WIDE15/16/17) 및 Common Crawl CC40의 데이터 소스.
warc2text를 이용한 WARC 기반 텍스트 추출 및 초기 언어 감지.
다중노드 HPC(LUMI)에서 단일언어 및 이중언어 처리의 샤딩 및 파이프라인 오케스트레이션.
언어 식별(FastSpell/Hunspell), 인코딩 보정 및 유창성 점수를 포함한 단일언어 처리 파이프라인(Monotextor).
병렬 텍스트 정렬을 위한 이중언어 후보 생성 파이프라인(Bitextor)로 영어로의 번역(MarianNMT 교사 모델 및 증류)을 이용해 TF/IDF, Bleualign, Biflexer, Bicleaner-AI를 적용.
문서 수준의 근접 중복 제거를 위한 MinHash를 통한 중복 제거 및 재현성을 위해 중복 제거 전후 데이터를 모두 공개.

Figure 1: General overview of the HPLT acquisition and processing pipeline.

실험 결과

연구 질문

RQ1오픈 웹 크롤에서 엄격한 메타데이터와 관리 가능성을 가진 다국어 코퍼라를 웹 규모로 어떻게 구축할 수 있는가?
RQ275개 언어와 18개 언어쌍에 대해 얻을 수 있는 단일언어 및 영어 중심 병렬 자원의 규모와 특성은 무엇인가?
RQ3후처리 단계(중복 제거, 정제 및 이중언어 방법을 통한 뼈대 설계)가 언어 모델링 및 MT 학습을 위한 데이터 활용도에 얼마나 효과적인가?
RQ4영어 중심 쌍을 넘어 다국어 커버리지를 확장하는 합성 다언어 피벗(multiHPLT)의 잠재력은 어떤가?

주요 결과

언어 쌍	원시 세그먼트	원시 토큰	필터링된 세그먼트	필터링된 토큰	중복 제거된 세그먼트	중복 제거된 토큰
Norwegian (nn)	28 701 601	496 496 331	649 435	6 308 500	132 538	2 082 878
Bosnian* (bs)	26 998 901	521 626 621	1 426 670	12 439 348	240 012	2 705 525
Basque (eu)	20 830 243	400 262 771	3 087 453	31 739 210	610 687	9 964 617
Maltese (mt)	135 103 434	2 820 798 439	9 170 421	133 140 189	854 820	18 819 145
Gaelic (ga)	101 001 090	2 013 971 167	15 644 170	144 323 574	994 746	16 327 484
Galician (gl)	56 101 411	1 015 559 754	5 789 361	49 604 655	1 063 103	13 904 758
Macedonian (mk)	91 293 129	1 868 196 128	20 474 476	221 370 998	1 139 051	18 562 461
Albanian (sq)	253 098 546	5 819 014 143	16 729 596	144 732 656	1 655 958	25 831 054
Swahili (sw)	247 557 313	5 746 490 123	24 448 577	209 062 077	1 710 205	20 039 612
Icelandic (is)	170 419 019	3 266 074 902	28 149 571	262 486 823	2 148 854	29 493 241
Serbian* (sr)	754 277 462	14 249 438 714	60 482 286	586 909 655	4 643 025	67 063 293
Chinese (zh)	530 119 983	9 162 123 041	47 852 076	510 404 638	5 306 570	83 811 653
Estonian (et)	865 431 226	15 476 948 993	72 976 009	752 767 471	6 089 791	95 943 562
Catalan (ca)	402 492 626	8 034 120 323	88 434 510	882 436 335	8 905 889	141 859 163
Croatian* (hr)	895 785 142	16 565 285 999	128 145 132	1 165 895 906	9 310 275	138 360 666
Hindi (hi)	1 043 856 525	19 246 270 565	117 341 153	996 036 740	12 043 069	165 139 713
Arabic (ar)	1 545 148 805	33 199 212 426	277 864 501	2 307 727 128	14 645 128	239 377 462
Finnish (fi)	3 826 974 191	65 312 092 463	495 310 671	4 186 819 006	25 176 462	338 063 309
Total	-	-	-	-	-	-

단일언어 말뭉치(monoHPLT)는 75개 언어를 포괄하며 약 5.6조 토큰과 중복 제거 후 비압축 텍스트가 50.1 TB에 이릅니다.
병렬 말뭉치(biHPLT)는 18개 언어쌍으로 구성되며 9,600만 개 이상의 깨끗하고 중복 제거된 문장쌍과 12억 개가 넘는 영어 토큰을 포함합니다.
합성 다국어 피벗 데이터(multiHPLT)는 영어를 통해 171개 언어쌍 및 약 1억 5700만 개의 문장쌍을 생성합니다.
데이터의 약 3.35%만이 CCMatrix와 겹치고 약 15.72%가 ParaCrawl과 겹친다는 점은 상당한 신규성을 시사합니다.
처리 파이프라인은 언어 식별, 필터링 및 이중언어 후보 품질 관리를 포함하여(Bicleaner AI) 병렬 데이터에서 원시 데이터 대비 약 90%의 크기 감소를 달성합니다.
환경적인 측면: 전체 파이프라인에 필요한 추정 CPU 시간 약 500만 시간 및 GPU 시간 약 5만 시간으로, LUMI의 재생 가능 에너지 맥락과 일치합니다.

Figure 2: Size distribution for the monolingual corpora, organized by language family and language. The volume of texts ranges from 1.0 GB for text classified by CLD2 as Esperanto to 20.3 TB for English, accounting for 41% of the whole collection.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.