Skip to main content
QUICK REVIEW

[논문 리뷰] A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

Shayne Longpre, Gregory Yauney|arXiv (Cornell University)|2023. 05. 22.
Topic Modeling인용 수 7
한 줄 요약

이 연구는 데이터 연령, 품질/독성 필터링, 도메인 구성의 변화가 LM 성능에 미치는 영향을 정량화하기 위해 28개의 모델을 사전학습하고, 만능의 필터링은 없다는 사실과 이질적 데이터 소스의 가치를 밝힙니다.

ABSTRACT

Pretraining is the preliminary and fundamental step in developing capable language models (LM). Despite this, pretraining data design is critically under-documented and often guided by empirically unsupported intuitions. To address this, we pretrain 28 1.5B parameter decoder-only models, training on data curated (1) at different times, (2) with varying toxicity and quality filters, and (3) with different domain compositions. First, we quantify the effect of pretraining data age. A temporal shift between evaluation data and pretraining data leads to performance degradation, which is not overcome by finetuning. Second, we explore the effect of quality and toxicity filters, showing a trade-off between performance on standard benchmarks and risk of toxic generations. Our findings indicate there does not exist a one-size-fits-all solution to filtering training data. We also find that the effects of different types of filtering are not predictable from text domain characteristics. Lastly, we empirically validate that the inclusion of heterogeneous data sources, like books and web, is broadly beneficial and warrants greater prioritization. These findings constitute the largest set of experiments to validate, quantify, and expose many undocumented intuitions about text pretraining, which we hope will help support more informed data-centric decisions in LM development.

연구 동기 및 목표

  • 사전학습 데이터 연령이 다운스트림 성능과 미세조정 결과에 미치는 영향을 측정합니다.
  • 품질 및 독성 필터가 모델 동작과 작업 성능에 미치는 영향을 평가합니다.
  • 도메인 구성(도서, 웹 등)이 일반화 및 독성 생성에 미치는 영향을 평가합니다.
  • LM 사전학습에서 데이터 큐레이션에 대한 실용적 권고를 제공합니다.
  • 1.5B 매개변수의 28개 모델 대규모 세트를 통해 텍스트 사전학습에 관한 직관을 검증합니다.

제안 방법

  • 시간 축, 독성/품질 필터, 또는 도메인 구성에 따라 수정된 데이터 세트에서 28개의 decoder-only 1.5B-parameter 모델 (LM-XL)을 사전학습합니다.
  • C4와 Pile를 시작 데이터 세트로 사용하고 다중 필터(품질 임계값, 독성 임계값, 역필터)를 적용합니다.
  • 데이터 세트를 중복 제거하고 필터링되지 않은 기본 데이터 세트와 비교합니다.
  • QA, 독성 식별, 독성 생성 과제에서 임상적으로 다양한 벤치마크에 대해 다운스트림 성능을 평가합니다.
  • 필터 효과를 맥락화하기 위해 PII, 가독성, 길이 등 관찰 데이터 특성을 분석합니다.

실험 결과

연구 질문

  • RQ1사전학습 데이터 연령이 다운스트림 모델 성능과 미세조정 효과에 미치는 영향은 무엇인가?
  • RQ2품질 및 독성 필터가 모델 성능과 독성 관련 행동 간에 어떤 트레이드오프를 만들어내는가?
  • RQ3사전학습 데이터 내 도메인 구성은 일반화와 독성 생성에 어떤 영향을 미치는가?
  • RQ4필터링 효과가 고수준 텍스트-도메인 특성에서 예측 가능한가?
  • RQ5다양한 데이터 소스(도서, 웹)의 포함이 다운스트림 작업에 일관되게 이점을 주는가?

주요 결과

  • 사전학습과 평가 데이터 간의 시간적 불일치가 특히 더 큰 모델에서 성능을 저하시키는 경향이 있다.
  • 품질 필터링은 데이터 양을 줄임에도 불구하고 모든 작업에서 다운스트림 성능을 향상시키는 반면, 독성 필터링은 일반화와 QA 성능을 감소시킬 수 있다.
  • 독성 및 품질은 일관되게 정렬되지 않으며, 고독성 콘텐츠가 더 높은 품질 신호를 가질 수 있고 도메인 특성만으로는 필터링 결과를 예측할 수 없다.
  • 도서와 웹 데이터와 같은 이질적 데이터 소스를 포함하면 일반적으로 성능이 향상되며, 도서는 더 높은 독성을 기여한다.
  • 모델 성능은 데이터 연령과 도메인 혼합에 의해 단일한 규칙으로 설명되지 않으며, 정교한 데이터 큐레이션 전략의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.