Skip to main content
QUICK REVIEW

[논문 리뷰] Scaling Laws for Deep Learning

Jonathan S. Rosenfeld|arXiv (Cornell University)|2021. 08. 17.
Generative Adversarial Networks and Image Synthesis참고 문헌 68인용 수 25
한 줄 요약

이 논문은 딥러닝 학습과 가지치기가 비전 및 언어 작업 전반에 걸쳐 예측 가능한 스케일링 법칙을 따른다는 것을 보여주며, 작은 규모의 측정으로 성능을 예측하는 건설적인 프레임워크를 제공하고 유한 데이터 하에서 거의 이상적 일반화에 도달하기 위한 Nyquist learners 방향을 제시한다.

ABSTRACT

Running faster will only get you so far -- it is generally advisable to first understand where the roads lead, then get a car ... The renaissance of machine learning (ML) and deep learning (DL) over the last decade is accompanied by an unscalable computational cost, limiting its advancement and weighing on the field in practice. In this thesis we take a systematic approach to address the algorithmic and methodological limitations at the root of these costs. We first demonstrate that DL training and pruning are predictable and governed by scaling laws -- for state of the art models and tasks, spanning image classification and language modeling, as well as for state of the art model compression via iterative pruning. Predictability, via the establishment of these scaling laws, provides the path for principled design and trade-off reasoning, currently largely lacking in the field. We then continue to analyze the sources of the scaling laws, offering an approximation-theoretic view and showing through the exploration of a noiseless realizable case that DL is in fact dominated by error sources very far from the lower error limit. We conclude by building on the gained theoretical understanding of the scaling laws' origins. We present a conjectural path to eliminate one of the current dominant error sources -- through a data bandwidth limiting hypothesis and the introduction of Nyquist learners -- which can, in principle, reach the generalization error lower limit (e.g. 0 in the noiseless case), at finite dataset size.

연구 동기 및 목표

  • 최신 작업 전반에서 일반화 오차가 데이터 크기와 모델 용량에 따라 어떻게 스케일링되는지 이해한다.
  • 작은 규모의 측정으로 모델 성능을 예측하는 건설적이고 예측 가능한 법칙을 개발한다.
  • 배포 결정을 안내하기 위해 가지치기와 압축에 대한 스케일링 분석을 확장한다.
  • 근사 기반 관점을 통해 스케일링 법칙의 기원을 연구한다.
  • 데이터 대역폭 한계와 Nyquist learners를 통해 오차를 줄이기 위한 미래 방향을 제시한다.

제안 방법

  • 다양한 데이터셋(비전 및 언어)과 모델 규모에서 일반화 오차를 실증적으로 특징 짓는다.
  • 데이터 크기와 모델 크기의 함수로 오차를 설명하는 공동 함수 형태(스케일링 법칙)를 적합시킨다.
  • 가지치기된 네트워크를 모델링하기 위해 스케일링 프레임워크를 Iterative Magnitude Pruning (IMP)으로 확장한다.
  • 근사 이론적 프레임워크(실현가능성, 불확실성, 학습 결손, 노이즈) 내에서 오차 원인을 분석한다.
  • 오차 원인을 고립시키고 예측을 검증하기 위해 실현 가능한 교사-학생 설정을 구성한다.
  • 하한의 일반화 오차 경계에 접근하기 위한 이론적 경로(데이터 대역폭 한계, Nyquist learners)를 제시한다.

실험 결과

연구 질문

  • RQ1최신 모델에서 일반화 오차, 데이터 크기, 모델 용량 간의 함수적 관계는 무엇인가?
  • RQ2구축적이고 예측 가능한 스케일링 법칙이 서로 다른 데이터 스케일에서 목표 오차를 달성하기 위한 정확한 모델 구성을 명시할 수 있는가?
  • RQ3가지치기(IMP)가 일반화 오차에 어떤 영향을 미치며, 모든 가지치기된 네트워크 구성을 설명하는 공동 스케일링 법칙이 있을 수 있는가?
  • RQ4딥러닝 일반화의 지배적 오차 원인은 무엇이며, 이들이 스케일링 동향에 어떤 영향을 미치는가?
  • RQ5유한 데이터에서 거의 최적의 일반화를 달성할 수 있게 하는 이론적 조건은 무엇인가( Nyquist learners )?

주요 결과

  • 공동 스케일링 법칙은 비전과 언어 과제에서 데이터 크기와 모델 크기 모두의 함수로 일반화 오차를 정확히 설명한다.
  • Iterative Magnitude Pruning을 통한 가지치기는 예측 가능한 스케일링 법칙을 따르며, 깊이, 너비, 가지치기 밀도 간의 오차 보존적 교환 가능성을 허용하는 불변량이 존재한다.
  • 근사 중심 관점은 연구된 영역에서 불확실성 및 학습 결손이 실현가능성보다 지배적인 오차 원인임을 식별한다.
  • 실현 가능한 교사-학생 설정은 실현가능성이 오차의 유일한 원인이 아님을 보여주어 다른 지배적 오류 원인의 근거를 강화한다.
  • Nyquist learners를 향한 추정적 경로는 데이터 대역폭 제한이 유한 데이터에서 더 낮은 오차 경계에 도달하도록 할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.