Skip to main content
QUICK REVIEW

[논문 리뷰] The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset

Hugo Laurençon, Lucile Saulnier|arXiv (Cornell University)|2023. 03. 07.
Topic Modeling참고 문헌 100인용 수 65
한 줄 요약

이 논문은 BLOOM 학습에 사용된 1.6TB 다언어 텍스트 데이터셋 ROOTS 코퍼스의 생성, 선별 및 분석을 문서화하며, 59개 언어와 13개 프로그래밍 언어에 걸친 데이터 소싱, 처리 파이프라인 및 품질 관리에 대해 설명합니다.

ABSTRACT

As language models grow ever larger, the need for large-scale high-quality text datasets has never been more pressing, especially in multilingual settings. The BigScience workshop, a 1-year international and multidisciplinary initiative, was formed with the goal of researching and training large language models as a values-driven undertaking, putting issues of ethics, harm, and governance in the foreground. This paper documents the data creation and curation efforts undertaken by BigScience to assemble the Responsible Open-science Open-collaboration Text Sources (ROOTS) corpus, a 1.6TB dataset spanning 59 languages that was used to train the 176-billion-parameter BigScience Large Open-science Open-access Multilingual (BLOOM) language model. We further release a large initial subset of the corpus and analyses thereof, and hope to empower large-scale monolingual and multilingual modeling projects with both the data and the processing tools, as well as stimulate research around this large multilingual corpus.

연구 동기 및 목표

  • 윤리 및 거버넌스 고려에 부합하도록 크고 개방된 다언어 데이터셋 생성을 고무한다.
  • 커뮤니티가 선정한 소스와 OSCAR 계열 데이터를 포함한 ROOTS의 데이터 소싱 과정 및 구성에 대해 설명한다.
  • 크라우드소스 데이터셋에 적용된 처리 및 품질 향상 파이프라인을 설명한다.
  • 중복 제거 및 개인정보 식별 정보 제거를 위한 단계들을 상세히 제시한다.
  • ROOTS 코퍼스에 대한 추가 연구를 가능하게 하는 초기 분석 및 도구를 제공한다.

제안 방법

  • ROOTS를 62%의 커뮤니티 식별 소스와 38%의 OSCAR-derived 데이터로 구성하여 1.6TB 다언어 코퍼스로 조합한다.
  • 두 단계 데이터 수집 파이프라인을 구현한다: 소스를 수집하고 텍스트와 메타데이터 필드를 가진 일관된 형식으로 매핑한다.
  • 노이즈 감소 및 중복 제거를 위한 문서 및 데이터셋 범위의 정제 및 필터링 기능이 포함된 다단계 처리 파이프라인을 적용한다.
  • Common Crawl 스냅샷을 통한 웹 도메인 의사 크롤링, HTML 텍스트 추출 및 도메인 수준의 필터링 규칙을 수행한다.
  • 언어별 품질 지표와 원어민 임계치를 사용하여 OSCAR 데이터를 필터링하고 저품질 또는 자연스러운 언어가 아닌 콘텐츠를 제거한다.

실험 결과

연구 질문

  • RQ1다양한 데이터 소스로부터 대규모 다언어 코퍼스를 문서화 및 거버넌스를 유지하며 어떻게 구성할 수 있는가?
  • RQ2크라우드소스 및 웹 크롤링 텍스트의 품질을 향상시키고 노이즈를 줄이기 위한 효과적인 처리 및 필터링 전략은 무엇인가?
  • RQ3대규모 언어 모델 학습을 의도한 1.6TB 다언어 코퍼스의 언어학적 및 코딩 언어 구성은 어떠한가?
  • RQ4중복 제거와 PII 필터링이 다언어 LM 학습을 위한 데이터셋의 품질과 유용성에 어떤 영향을 미치는가?

주요 결과

  • ROOTS 코퍼스의 총 규모는 1.6TB이며 59개 언어와 13개 프로그래밍 언어를 포괄한다.
  • 최종 데이터셋은 62%의 커뮤니티 선정 소스와 38%의 OSCAR-derived 데이터로 구성된다.
  • 다단계 데이터 수집 및 상세한 처리 파이프라인은 클린징 및 중복 제거 후 485개의 비비어있는 데이터셋을 도출한다.
  • OSCAR 데이터의 경우 언어별 필터와 원어민 임계치를 적용하여 저품질 또는 포르노그래피 콘텐츠의 상당 부분을 제거하며, 제거 비율은 언어 의존적으로 보고된다.
  • 코드 데이터는 상당한 근사 중복이 나타나며, 중복 제거 후 데이터의 32%가 near-duplicates로 식별된다.
  • 토크나이저 분석은 구성 데이터셋이 기존 코퍼스에 얼마나 정합하거나 벗어나는지 보여주어 모델 토큰화 고려사항에 정보를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.