Skip to main content
QUICK REVIEW

[논문 리뷰] RedPajama: an Open Dataset for Training Large Language Models

Maurice Weber, Daniel Fu|arXiv (Cornell University)|2024. 11. 19.
Natural Language Processing Techniques인용 수 17
한 줄 요약

논문은 RedPajama-V1(LLama 훈련 데이터의 공개 재현)과 RedPajama-V2(품질 신호가 있는 대규모 웹 데이터)를 공개하여 투명하고 확장 가능한 오픈 LLM 개발을 촉진하고, 품질 신호가 모델 성능을 향상시키는 방법을 보여주는 분석들을 제시한다.

ABSTRACT

Large language models are increasingly becoming a cornerstone technology in artificial intelligence, the sciences, and society as a whole, yet the optimal strategies for dataset composition and filtering remain largely elusive. Many of the top-performing models lack transparency in their dataset curation and model development processes, posing an obstacle to the development of fully open language models. In this paper, we identify three core data-related challenges that must be addressed to advance open-source language models. These include (1) transparency in model development, including the data curation process, (2) access to large quantities of high-quality data, and (3) availability of artifacts and metadata for dataset curation and analysis. To address these challenges, we release RedPajama-V1, an open reproduction of the LLaMA training dataset. In addition, we release RedPajama-V2, a massive web-only dataset consisting of raw, unfiltered text data together with quality signals and metadata. Together, the RedPajama datasets comprise over 100 trillion tokens spanning multiple domains and with their quality signals facilitate the filtering of data, aiming to inspire the development of numerous new datasets. To date, these datasets have already been used in the training of strong language models used in production, such as Snowflake Arctic, Salesforce's XGen and AI2's OLMo. To provide insight into the quality of RedPajama, we present a series of analyses and ablation studies with decoder-only language models with up to 1.6B parameters. Our findings demonstrate how quality signals for web data can be effectively leveraged to curate high-quality subsets of the dataset, underscoring the potential of RedPajama to advance the development of transparent and high-performing language models at scale.

연구 동기 및 목표

  • 오픈 소스 LLM에서 투명한 데이터 큐레이션의 필요성을 시연하고 데이터 세트를 공개적으로 이용 가능하게 만든다.
  • LLaMA 훈련 데이터의 공개 재현으로서 RedPajama-V1을 제공하고, 품질 신호가 포함된 대규모 웹 전용 데이터 세트로서 RedPajama-V2를 제공합니다.
  • 품질 신호를 사용하여 더 높은 품질의 데이터 부분집합을 큐레이션하고 모델 성능을 향상시키는 방법을 보여준다.
  • 데이터세트에서 훈련된 RedPajama-INCITE 모델을 설명하고 개방 기준선과의 성능을 평가한다.

제안 방법

  • 자세한 문서화 및 처리 단계와 함께 LLaMA 훈련 코퍼스를 재생산하여 RedPajama-V1을 만든다.
  • 다섯 가지 언어에 걸친 84 개의 Common Crawl 스냅샷(2014–2023)을 수집하고 문서당 46개의 품질 신호를 부여하여 RedPajama-V2를 생성한다.
  • 자연어, 반복성, 콘텐츠 기반, ML 휴리스틱, 중복 제거 지표를 포함한 품질 신호를 공개한다.
  • Summit에서 아키텍처 및 FP16 한계를 다루기 위한 맞춤형 엔지니어링으로 REDPajama-INCITE 모델(3B 및 7B)을 훈련한다.
  • 다운스트림 NLP 벤치마크에 대한 품질 신호의 영향을 평가하기 위해 디코더 전용 모델(468M 및 1.6B)에 대한 아블레이션을 수행한다.
  • 집계된 벤치마크 지표를 사용하여 개방 기준선과 RedPajama 변형을 비교한다.
Figure 1: The ecosystem around the RedPajama datasets. RedPajama has provided pretraining data for multiple open-source LLMs, including OpenELM [ 36 ] , OLMo [ 19 ] , Snowflake’s Arctic [ 54 ] and RedPajama-INCITE. SlimPajama is a cleaned and deduplicated version of RedPajama-V1.
Figure 1: The ecosystem around the RedPajama datasets. RedPajama has provided pretraining data for multiple open-source LLMs, including OpenELM [ 36 ] , OLMo [ 19 ] , Snowflake’s Arctic [ 54 ] and RedPajama-INCITE. SlimPajama is a cleaned and deduplicated version of RedPajama-V1.

실험 결과

연구 질문

  • RQ1개방형 LLM 데이터셋을 어떻게 더 투명하고 재현 가능하게 만들 수 있는가?
  • RQ2다양한 품질 신호의 적용이 웹에서 유래한 사전학습 데이터의 품질과 모델 성능에 미치는 영향은 무엇인가?
  • RQ3초대형 오픈 웹 데이터셋(RPv2)이 표준 벤치마크 전반에서 경쟁력 있는 오픈 LLM을 가능하게 할 수 있는가?
  • RQ4일반 구성품이나 제한된 HPC 자원에서 대규모 학습 코퍼런스를 재현할 때의 트레이드오프와 실용적 고려사항은 무엇인가?

주요 결과

  • RPv1은 LLaMA로 학습된 코퍼스를 충실히 재현하고 재현 가능한 오픈 베이스라인을 제공한다.
  • RPv2는 문서당 46개의 품질 신호를 포함한 거대한 웹 코퍼스를 제공하여 원칙에 입각한 필터링 및 아블레이션을 가능하게 한다.
  • 품질 신호는 468M 및 1.6B 매개변수 모델의 아블레이션에서 다운스트림 벤치마크 성능에 의미 있게 영향을 줄 수 있다.
  • Summit에서 훈련된 RedPajama-INCITE 모델은 유사 규모의 개방 모델과 비교하여 소수샷 및 제로샷 성능에서 경쟁력을 보이며, instruction 변형은 소수샷 작업에서 탁월하다.
  • 아블레이션은 서로 다른 품질 필터링 규칙이 평균 벤치마크 성능과 perplexity에 어떤 영향을 미치는지 보여준다.
  • RPv2의 메타데이터가 풍부한 설계는 고품질 데이터 하위집합에 대한 신속한 실험을 촉진한다.
Figure 2: RedPajama-INCITE-Base 3B results on a subset of lm-evaluation-harness. The tasks were selected according to the selection made to evaluate Pythia [ 4 ] and GPT-J [ 59 ]
Figure 2: RedPajama-INCITE-Base 3B results on a subset of lm-evaluation-harness. The tasks were selected according to the selection made to evaluate Pythia [ 4 ] and GPT-J [ 59 ]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.