Skip to main content
QUICK REVIEW

[논문 리뷰] The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman|arXiv (Cornell University)|2020. 12. 31.
Topic Modeling참고 문헌 50인용 수 483
한 줄 요약

The Pile은 22개의 다양한 소스들로 구성된 825 GiB 크기의 영어 텍스트 데이터셋으로, 언어 모델의 교차 도메인 일반화를 개선하도록 설계되었습니다. Pile에서 학습된 모델은 CC-100 및 원시 Common Crawl에서 학습된 모델보다 여러 구성 요소에서 우수합니다.

ABSTRACT

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present extit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.

연구 동기 및 목표

  • Common Crawl을 넘어 광범위한 도메인 언어 모델링을 위한 다양하고 고품질의 학습 데이터 필요성 자극.
  • 새로운 및 기존 데이터셈 포함한 22-컴포넌트 Pile과 그 구성 소개.
  • Pile에서 학습된 모델이 CC-100 및 Raw CC에 비해 다운스트림 성능이 개선되었음을 입증.
  • 재현성 및 정보에 기반한 데이터셋 활용을 가능하게 하는 광범위한 문서화 및 도구 제공.

제안 방법

  • 단일 825 GiB 영어 텍스트 코퍼스(The Pile)로 22개의 다양한 고품질 데이터세트를 모음.
  • 중복 제거 및 품질 관리 단계에는 Pile-CC 및 구성요소별 다양한 전처리 선택사항 포함.
  • 교차 도메인 일반화를 비교하기 위해 서로 다른 데이터 소스에서 1.3B 매개변수 모델을 학습.
  • 주된 지표로 UTF-8 바이트당 비트(bpb)을 사용하고, 구성요소별로 GPT-2/GPT-3에 대한 문서당 perplexity를 계산.
  • 공정한 교차 데이터셋 비교를 가능하게 하기 위한 크기 조절 다운샘플링 및 중복 제거 수행.
  • 데이터셋 주제 및 문서 특성을 분석하여 잠재적 우려사항 및 편향을 기록.

실험 결과

연구 질문

  • RQ1Pile을 통한 데이터 다양성 증가가 CC-100 또는 Raw CC로 학습했을 때와 비교하여 언어 모델의 교차 도메인 일반화를 향상시키는가?
  • RQ2어떤 Pile 구성요소가 성능에 가장 큰 영향을 미치며, Pile에서 학습된 모델은 학술, 프로그래밍 및 다국어 콘텐츠에서 어떤 성과를 내는가?
  • RQ3GPT-2/GPT-3는 개별 Pile 구성요소에서 어떻게 성능을 보이며, 향후 데이터 구성에 어떤 시사점이 있는가?
  • RQ4이처럼 크고 다양한 말뭉치로 학습할 때의 윤리 및 문서화 고려사항은 무엇이며, 이를 어떻게 해결할 수 있는가?
  • RQ5고정 크기로 다운샘플링하는 것이 데이터셋 품질과 일반화에 대한 결론에 어떤 영향을 미치는가?

주요 결과

데이터셋Pile (val) 크기Pile (val) (bpb)Pile (test) (bpb)WikiText (ppl)LAMBADA (ppl)LAMBADA (acc)
The Pile825 GiB0.92810.94335.5912.7850.1
CC-100 (en)300 GiB1.31431.32938.2711.7849.7
Raw CC45927 GiB †1.11801.127511.7519.8443.8
  • Pile에서 학습된 모델은 Hold-out 데이터에서 거의 모든 Pile 구성요소에서 CC-100 및 Raw CC보다 상당한 향상을 보였다.
  • GPT-2/GPT-3 제로샷 perplexity는 학술 및 도메인 특정 텍스트(예: PubMed Central, ArXiv, FreeLaw)가 표적 데이터 없이는 도전적임을 보여주며, Pile 다양성의 이점을 강조한다.
  • Pile-CC만으로는 제한된 이득이 있으며, 다른 구성요소가 특히 학술, 프로그래밍, 수학 콘텐츠에서 교차 도메인 성능에 크게 기여한다.
  • Pile 구성요소는 GPT-3 학습 데이터와 크게 중복되지 않으며, 웹 기반 텍스트를 넘어서는 광범위한 커버리지를 시사한다.
  • perplexity 기반 방법으로 Common Crawl을 필터링하면 다양성이 감소하여 일부 도메인에서 성능이 저하될 수 있어, 데이터 큐레이션의 신중함이 필요하다는 점을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.