QUICK REVIEW

[논문 리뷰] Scaling Data-Constrained Language Models

Niklas Muennighoff, Alexander M. Rush|arXiv (Cornell University)|2023. 05. 25.

Topic Modeling인용 수 32

한 줄 요약

본 논문은 데이터가 제한된 상황에서 대형 언어 모델을 확장하는 방법을 연구하며, 반복을 고려한 데이터 제약 하의 스케일링 법칙을 도입하고, 고정된 계산 예산에서 더 많은 에포크와 더 작은 모델이 단에포크의 더 큰 모델 설정을 능가할 수 있음을 보여준다.

ABSTRACT

The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations.

연구 동기 및 목표

모델 크기가 커질 때 데이터 한계에 대응하여 연구의 동기를 제시한다.
고정된 계산 예산에서 데이터 반복의 영향을 정량화한다.
데이터 제약 하의 스케일링 법칙을 개발하고 Chinchilla 스케일링을 확장하는 것을 검증한다.
데이터 부족을 완화하기 위한 코드 증강과 필터링과 같은 보완 전략을 탐구한다.

제안 방법

GPT-2 아키텍처를 활용하여 최대 8.7B 파라미터의 트랜스포머 언어 모델을 최대 900B 토큰에 걸쳐 훈련한다.
데이터를 고유 토큰과 반복으로 분할하여 데이터 제약 스케일링 프레임워크를 도입한다.
손실 스케일링 법칙을 확장하여 데이터 반복을 반영하는 유효 데이터(D′)와 유효 파라미터(N′) 및 지수 감소형 항을 포함하도록 일반화한다.
400회가 넘는 훈련 실행의 실험 결과를 사용하여 스케일링 법칙 파라미터를 적합시킨다.
고정된 고유 데이터, 고정 FLOPs, 및 매개변수적 외삽을 통해 할당과 수익성을 평가한다.
보완적 데이터 전략을 평가하기 위해 코드 데이터 증강 및 데이터 필터링 전략을 실험한다.

실험 결과

연구 질문

RQ1데이터가 제한될 때 계산을 모델 크기와 데이터 에포크 간에 어떻게 배분해야 하는가?
RQ2고정된 계산 예산에서 데이터 반복의 가치와 감소하는 수익은 무엇인가?
RQ3데이터 제약 스케일링 법칙이 Chinchilla 프레임워크를 반복 데이터 환경으로 확장할 수 있는가?
RQ4코드 증강과 완화된 필터링과 같은 전략이 데이터 부족 상황에서 다운스트림 성능을 향상시키는가?

주요 결과

반복 데이터는 약 16 에포크 이후에 수익이 감소하며, 그 전까지는 상당한 이득이 있다.
데이터 제약 하에서 더 큰 모델보다 더 많은 에포크에 더 많은 계산을 할당하라, 특히 반복이 초기 최적점을 넘을 때 그렇다.
데이터 제약 스케일링 법칙은 손실 추세를 정확히 예측하고 데이터가 반복될 때 Chinchilla와 다른 효율적 프런티어를 제시한다.
코드 데이터 증강은 자연어 작업에서 효과적 토큰 수를 대략 약 2배까지 증가시킬 수 있다.
중복 제거 필터링은 다운스트림 작업에 일관되게 이롭지 않지만, perplexity 기반 필터링은 노이즈가 많은 데이터 세트에서 도움이 된다.
코드 증강과 데이터 반복을 결합하면 처음부터 더 많은 고유 데이터가 있는 것과 같은 성능을 얻을 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.