QUICK REVIEW

[논문 리뷰] The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

Hugo Laurençon, Lucile Saulnier|arXiv (Cornell University)|2023. 03. 07.

Topic Modeling참고 문헌 100인용 수 65

한 줄 요약

이 논문은 BLOOM 학습에 사용된 1.6TB 다언어 텍스트 데이터셋 ROOTS 코퍼스의 생성, 선별 및 분석을 문서화하며, 59개 언어와 13개 프로그래밍 언어에 걸친 데이터 소싱, 처리 파이프라인 및 품질 관리에 대해 설명합니다.

ABSTRACT

As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.

연구 동기 및 목표

윤리 및 거버넌스 고려에 부합하도록 크고 개방된 다언어 데이터셋 생성을 고무한다.
커뮤니티가 선정한 소스와 OSCAR 계열 데이터를 포함한 ROOTS의 데이터 소싱 과정 및 구성에 대해 설명한다.
크라우드소스 데이터셋에 적용된 처리 및 품질 향상 파이프라인을 설명한다.
중복 제거 및 개인정보 식별 정보 제거를 위한 단계들을 상세히 제시한다.
ROOTS 코퍼스에 대한 추가 연구를 가능하게 하는 초기 분석 및 도구를 제공한다.

제안 방법

ROOTS를 62%의 커뮤니티 식별 소스와 38%의 OSCAR-derived 데이터로 구성하여 1.6TB 다언어 코퍼스로 조합한다.
두 단계 데이터 수집 파이프라인을 구현한다: 소스를 수집하고 텍스트와 메타데이터 필드를 가진 일관된 형식으로 매핑한다.
노이즈 감소 및 중복 제거를 위한 문서 및 데이터셋 범위의 정제 및 필터링 기능이 포함된 다단계 처리 파이프라인을 적용한다.
Common Crawl 스냅샷을 통한 웹 도메인 의사 크롤링, HTML 텍스트 추출 및 도메인 수준의 필터링 규칙을 수행한다.
언어별 품질 지표와 원어민 임계치를 사용하여 OSCAR 데이터를 필터링하고 저품질 또는 자연스러운 언어가 아닌 콘텐츠를 제거한다.

실험 결과

연구 질문

RQ1다양한 데이터 소스로부터 대규모 다언어 코퍼스를 문서화 및 거버넌스를 유지하며 어떻게 구성할 수 있는가?
RQ2크라우드소스 및 웹 크롤링 텍스트의 품질을 향상시키고 노이즈를 줄이기 위한 효과적인 처리 및 필터링 전략은 무엇인가?
RQ3대규모 언어 모델 학습을 의도한 1.6TB 다언어 코퍼스의 언어학적 및 코딩 언어 구성은 어떠한가?
RQ4중복 제거와 PII 필터링이 다언어 LM 학습을 위한 데이터셋의 품질과 유용성에 어떤 영향을 미치는가?

주요 결과

ROOTS 코퍼스의 총 규모는 1.6TB이며 59개 언어와 13개 프로그래밍 언어를 포괄한다.
최종 데이터셋은 62%의 커뮤니티 선정 소스와 38%의 OSCAR-derived 데이터로 구성된다.
다단계 데이터 수집 및 상세한 처리 파이프라인은 클린징 및 중복 제거 후 485개의 비비어있는 데이터셋을 도출한다.
OSCAR 데이터의 경우 언어별 필터와 원어민 임계치를 적용하여 저품질 또는 포르노그래피 콘텐츠의 상당 부분을 제거하며, 제거 비율은 언어 의존적으로 보고된다.
코드 데이터는 상당한 근사 중복이 나타나며, 중복 제거 후 데이터의 32%가 near-duplicates로 식별된다.
토크나이저 분석은 구성 데이터셋이 기존 코퍼스에 얼마나 정합하거나 벗어나는지 보여주어 모델 토큰화 고려사항에 정보를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.