QUICK REVIEW

[논문 리뷰] The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Guilherme Penedo, Quentin Malartic|arXiv (Cornell University)|2023. 06. 01.

Natural Language Processing Techniques인용 수 156

한 줄 요약

웹 전용 RefinedWeb은 관리된 말뭉치와 The Pile을 능가할 수 있는 모델을 만들어내며, 제로샷 벤치마크에서 GPT-3과 대등하게 경쟁하고, 5 trunk tokens를 사용하여 공개 600B 발췌로.

ABSTRACT

Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.

연구 동기 및 목표

적절하게 필터링되고 중복 제거된 웹 데이터만으로 제로샷 성능이 큐레이션된 말뭉치와 비교해 경쟁력 있거나 더 우수한지 조사한다.
웹 중심 프리트레이닝 파이프라인을 수조 토큰 규모로 확장하여 데이터 품질을 전통적인 큐레이션 소스와 비교 평가한다.
커뮤니티의 벤치마크로 제공하기 위해 고품질 웹 데이터셋(RefinedWeb)과 공개 발췌를 개발·공개한다.
필터링 및 중복 제거 단계가 다양한 규모에서 모델 성능에 어떤 영향을 미치는지 평가한다.

제안 방법

MacroData Refinement (MDR)을 도입하여 CommonCrawl 웹 데이터를 매우 대규모로 필터링하고 중복 제거한다.
RW-Raw에서 RW-Filtered를 생성하기 위해 엄격한 언어 식별, URL 필터링, 콘텐츠 추출 및 줄 단위 수정 등을 적용한다.
퍼지( MinHash ) 및 정확한(suffix array) 방법을 모두 이용한 공격적인 중복 제거와 덤프 간 URL 중복 제거를 수행한다.
350B 토큰에서 autoregressive decoder-only 모델(1B, 3B, 7B param)을 훈련하고; The Pile, C4, OSCAR, The Pile 등의 데이터셋과 비교한다.
EleutherAI 평가 허용값을 사용하여 broad task aggregation(small, core, main, ext)에서 제로샷 성능을 평가한다.

실험 결과

연구 질문

RQ1적절하게 필터링되고 중복 제거된 웹 데이터만으로 제로샷 평가에서 큐레이션된 말뭉치로 훈련된 모델과 대등하거나 우수한 성능을 달성할 수 있는가?
RQ2각 MDR 구성요소(필터링, 중복 제거)가 데이터셋 전반의 제로샷 성능에 미치는 영향은 무엇인가?
RQ3RefinedWeb의 다양한 모델 규모(1B, 3B, 7B)가 The Pile 및 GPT-3 기준선에 비해 어떤 성능을 보이는가?
RQ4MDR 파이프라인이 독립적으로 적용될 때 기존 프리트레이닝 데이터셋을 개선할 수 있는가?

주요 결과

RefinedWeb만으로 학습된 모델은 큐레이션된 코퍼스 및 The Pile에서 학습된 모델보다 다중 규모에서 제로샷 정확도에서 우수하다.
엄격한 필터링 및 중복 제거가 적용된 웹 데이터는 GPT-3 모델의 평가 구성에서의 성능에 맞먹을 수 있다.
350GT 프리트레이닝에서 1B 및 7B 파라미터의 RefinedWeb 기반 모델은 저자들의 평가 프레임워크 내에서 GPT-3에 비슷한 성능에 도달한다.
중복 제거는 데이터셋 전반에서 일관되게 제로샷 성능을 향상시키는 반면, 필터링은 소스 데이터에 따라 가변적인 효과를 보인다.
저자들은 RefinedWeb의 공개 600B-token 발췌를 공개하고 350GT에서 학습된 1B 및 7B 모델에서 강력한 결과를 보여준다.
다른 데이터셋에 MDR을 적용하면 중복 제거를 통해 특히 개선이 가능하며, 필터링 효과가 소스에 따라 달라지더라도 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.