[논문 리뷰] DataComp-LM: In search of the next generation of training sets for language models
DataComp-LM (DCLM)은 240T 토큰 Common Crawl 유래 코퍼스와 언어모델 프리트레이닝을 위한 데이터 큐레이션 평가 프레임워크를 표준화하고, 모델 기반 필터링이 고품질 학습 세트를 생성하며 7B 모델에 대해 2.6T 토큰으로 오픈 데이터 영역에서 최첨단 결과를 달성함.
We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretraining recipes based on the OpenLM framework, and a broad suite of 53 downstream evaluations. Participants in the DCLM benchmark can experiment with data curation strategies such as deduplication, filtering, and data mixing at model scales ranging from 412M to 7B parameters. As a baseline for DCLM, we conduct extensive experiments and find that model-based filtering is key to assembling a high-quality training set. The resulting dataset, DCLM-Baseline enables training a 7B parameter language model from scratch to 64% 5-shot accuracy on MMLU with 2.6T training tokens. Compared to MAP-Neo, the previous state-of-the-art in open-data language models, DCLM-Baseline represents a 6.6 percentage point improvement on MMLU while being trained with 40% less compute. Our baseline model is also comparable to Mistral-7B-v0.3 and Llama 3 8B on MMLU (63% & 66%), and performs similarly on an average of 53 natural language understanding tasks while being trained with 6.6x less compute than Llama 3 8B. Our results highlight the importance of dataset design for training language models and offer a starting point for further research on data curation.
연구 동기 및 목표
- 언어모델 학습 데이터 큐레이션에 대한 통제된 벤치마크를 구축하여 데이터 품질과 모델 아키텍처 및 학습 선택 사이의 상호작용을 해소한다.
- DCLM-Pool로 대규모의 표준화된 데이터 풀을 제공하고 재현 가능한 필터링, 중복 제거, 혼합 실험을 across 모델 규모(400M에서 7B 파라미터)에서 가능하게 하는 오픈 도구를 제공한다.
- 데이터 큐레이션 전략(중복 제거, 필터링, 데이터 혼합)이 공통 평가 체계에서 다운스트림 성능에 어떤 영향을 미치는지 평가한다.
- 이전 오픈 데이터셋에 비해 계산 비용을 줄이면서 성능을 향상시키는 효과적인 데이터 큐레이션 관행을 식별한다.
제안 방법
- DCLM-Pool 생성: resiliparse를 사용한 HTML 추출을 포함한 240T 토큰의 비필터링 Common Crawl 유래 코퍼스.
- 다섯 가지 컴퓨트 규모(400M-1x, 1B-1x, 1B-5x, 7B-1x, 7B-2x)와 데이터 효과를 독립적으로 파악하기 위한 표준화된 OpenLM 기반 학습 레시피를 정의한다.
- 데이터 큐레이션 파이프라인을 평가하기 위해 두 가지 트랙으로 분리: 필터링(풀에서 선택)과 혼합(여러 원천을 결합).
- 데이터 품질을 평가하기 위해 53개의 다운스트림 태스크(MMLU 5-shot, Core, Extended 지표 등)를 적용해 데이터셋 품질 점수를 매긴다.
- DCLM-베이스라인 데이터셋을 구성하기 위해 텍스트 추출, 중복 제거, 모델 기반 품질 필터링, 혼합 등 데이터 설계 구성요소를 제거(ablations)하여 조사한다.

실험 결과
연구 질문
- RQ1어떤 데이터 큐레이션 전략(중복 제거, 필터링, 혼합)이 베이스라인 언어모델의 다운스트림 성능에 가장 큰 영향을 미치는가?
- RQ2텍스트 추출 방법과 중복 제거가 여러 컴퓨트 규모에서 모델 성능에 어떤 영향을 미치는가?
- RQ3모델 기반 필터링이 휴리스틱 접근법에 비해 데이터 품질을 얼마나 개선할 수 있는가?
- RQ4고품질 소스를 Common Crawl 기반 데이터와 혼합하는 것이 다양한 규모에서 성능에 도움이 되거나 해를 끼치는가?
- RQ5고품질 공개 데이터셋(DCLM-베이스라인)이 비공개 데이터셋과 유사한 규모에서 계산 자원 제한 하에 최첨단과 같은 성능을 달성할 수 있는가?
주요 결과
- 모델 기반 필터링은 DCLM-베이스라인의 효과적인 데이터 큐레이션에서 핵심 구성 요소이다.
- OH-2.5 + ELI5 양성 데이터 및 상위 10% 임계값으로의 fastText 기반 필터링이 Core 및 MMLU 성능을 강하게 보였다.
- 7B 모델로 2.6T 토큰에서 학습된 DCLM-베이스라인은 MMLU(5-shot)에서 64%를 달성하며 더 많은 컴퓨트를 사용하여 학습된 여러 오픈 가중치 베이스라인을 능가했다.
- DCLM-베이스라인은 MMLU에서 64%에 도달하고 Mistral-7B-v0.3(63%) 및 Llama 3 8B(66%)와 경쟁적이며 Llama 3 8B에 비해 약 6.6배 낮은 계산량을 사용한다.
- 고품질 소스를 CC와 혼합하는 것이 일부 하위집합(C4, RPJ-CC)에서 성능을 개선할 수 있지만 DCLM-베이스라인에서는 손해를 보이기도 하며 혼합 효과는 기본 데이터 품질에 의존한다.
- 2.6T 토큰으로 학습된 7B 모델은 오픈 데이터 모델에서 최첨단에 근접하거나 비공개 데이터 모델과 유사한 수준으로 경쟁한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.