[논문 리뷰] Scaling Laws for Autoregressive Generative Modeling
이 논문은 자기회귀 Transformer가 언어, 이미지, 비디오, 다중모달, 수학 분야 전반에서 교차 엔트로피 손실의 일관된 멱-상수 스케일링을 보이며, 거의 보편적인 최적 모델 크기 스케일링이 컴퓨트와 해석 가능한 불가소/가소 손실 구성요소와 함께 나타난다는 것을 보여준다.
We identify empirical scaling laws for the cross-entropy loss in four domains: generative image modeling, video modeling, multimodal image$\leftrightarrow$text models, and mathematical problem solving. In all cases autoregressive Transformers smoothly improve in performance as model size and compute budgets increase, following a power-law plus constant scaling law. The optimal model size also depends on the compute budget through a power-law, with exponents that are nearly universal across all data domains. The cross-entropy loss has an information theoretic interpretation as $S($True$) + D_{\mathrm{KL}}($True$||$Model$)$, and the empirical scaling laws suggest a prediction for both the true data distribution's entropy and the KL divergence between the true and model distributions. With this interpretation, billion-parameter Transformers are nearly perfect models of the YFCC100M image distribution downsampled to an $8 imes 8$ resolution, and we can forecast the model size needed to achieve any given reducible loss (ie $D_{\mathrm{KL}}$) in nats/image for other resolutions. We find a number of additional scaling laws in specific domains: (a) we identify a scaling relation for the mutual information between captions and images in multimodal models, and show how to answer the question "Is a picture worth a thousand words?"; (b) in the case of mathematical problem solving, we identify scaling laws for model performance when extrapolating beyond the training distribution; (c) we finetune generative image models for ImageNet classification and find smooth scaling of the classification loss and error rate, even as the generative loss levels off. Taken together, these results strengthen the case that scaling laws have important implications for neural network performance, including on downstream tasks.
연구 동기 및 목표
- 다중 데이터 모달리티에서 자기회귀 Transformer를 사용하여 교차 엔트로피 손실에 대한 실증적 스케일링 법칙을 식별한다.
- 최적 모델 크기가 컴퓨트 예산에 어떻게 의존하는지와 손실이 불가소 및 가소 구성 요소로 어떻게 분해되는지 특징지운다.
- 도메인별 스케일링 지수의 해석적 추론을 통해 정보 이론적 관점에서 결과를 해석한다.
- 스케일링 법칙의 분류, 다국어/다중모달 작업, 수학 문제 해결의 외삽과 같은 하류 함의를 시연한다.]
제안 방법
- 도메인(언어, 여러 해상도의 이미지, 비디오, 다중모달 이미지-텍스트, 절차적으로 생성된 수학)에 걸쳐 자기회귀 교차 엔트로피 손실을 사용하는 디코더 전용 Transformer 모델을 훈련한다.
- 변수 x(모델 크기 N, 컴퓨트 C, 때때로 데이터셋 크기 D) 하에서 L(x)=L∞+(x0/x)^{αx} 형태의 멱-법칙 플러스 상수 형태로 손실 L을 적합한다.
- 컴퓨트를 함수로서 최적 모델 크기 Nopt(C)을 추정하고 Nopt ∝ C^β를 도메인 전반에서 β≈0.7로 발견한다.
- 도메인별 인코딩(pixel 토큰, VQ 코드)과 희소/밀집 어텐션 패턴을 사용하여 맥락 길이와 계산량을 관리한다.
- 불가소 손실 L∞을 대략 진짜 분포의 엔트로피로, 가소 손실을 대략 True||Model의 D_KL로 해석한다.
- 다중모달 모델에서 상호 정보량과 정보 이득의 도메인별 현상 및 수학 문제의 외삽 행태를 검토한다.
실험 결과
연구 질문
- RQ1자기회귀 Transformer를 사용할 때 L = L∞ + (x0/x)^{αx} 형태의 스케일링 법칙이 언어, 이미지, 비디오, 다중모달, 수학 도메인 전반에 걸쳐 성립하는가?
- RQ2도메인별로 컴퓨트 예산에 따라 최적 모델 크기가 어떻게 달라지며 지수 β가 보편적인가?
- RQ3이들 도메인에서 불가소 대 가소 손실의 해석은 무엇이며 데이터 엔트로피 및 모델 KL 발산에 대해 무엇을 시사하는가?
- RQ4스케일링 법칙이 ImageNet 미세조정, 다중모달 정보 이득, 수학 문제 해결의 외삽과 같은 작업에 어떤 하류 함의를 가지는가?
- RQ5데이터 구조와 맥락 길이가 위치 의존적 손실과 스케일링 동향에 어떤 영향을 미치는가?
주요 결과
- L = L∞ + (x0/x)^{αx} 형태의 스케일링 법칙이 언어, 이미지, 비디오, 다중모달, 수학 도메인 전반에서 성립한다.
- 최적 모델 크기는 컴퓨트와의 관계에서 도메인 전반에 걸쳐 Nopt ∝ C^{0.7}로 스케일링한다.
- 불가소 손실 L∞은 데이터 엔트로피를 추적하는 반면, 가소 손실은 실제 분포와 모델 분포 간의 KL 발산을 추적하며, 후자는 생성 손실이 L∞에 근접하더라도 정보를 남기는 경우가 많다.
- 다중모달 모델은 모델 크기에 따라 상호 정보량과 정보 이득이 매끈하게 스케일링되며 Infogain이 규모에 비례하여 증가하는 지표를 보인다.
- 수학 분야에서는 외삽 성능이 모델 크기보다는 학습 분포 성능에 의존하며, 더 큰 모델만으로 일반화 이점이 제한적임을 시사한다.
- 생성적 이미지 모델을 ImageNet 미세조정하는 경우도 분해 불가소 손실에 접근한 이후에도 분류 손실이 모델 크기에 대해 여전히 매끈하게 스케일링된다.
- 최적의 종횡비는 언어에 비해 이미지와 비디오에서 더 깊고 좁은 모델을 선호한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.