Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning Scaling is Predictable, Empirically

Joel Hestness, Sharan Narang|arXiv (Cornell University)|2017. 12. 01.
Topic Modeling참고 문헌 33인용 수 417
한 줄 요약

본 논문은 네 가지 DL 도메인에 걸쳐 일반화 오차와 모델 크기가 훈련 데이터에 따라 어떻게 스케일링되는지 경험적으로 특징지하며, 도메인 의존 지수와 부분 선형(sublinear) 모델 크기 증가를 보이는 멱법칙 학습 곡선을 제시한다.

ABSTRACT

Deep learning (DL) creates impactful advances following a virtuous recipe: model architecture search, creating large training data sets, and scaling computation. It is widely believed that growing training sets and models should improve accuracy and result in better products. As DL application domains grow, we would like a deeper understanding of the relationships between training set size, computational scale, and model accuracy improvements to advance the state-of-the-art. This paper presents a large scale empirical characterization of generalization error and model size growth as training sets grow. We introduce a methodology for this measurement and test four machine learning domains: machine translation, language modeling, image processing, and speech recognition. Our empirical results show power-law generalization error scaling across a breadth of factors, resulting in power-law exponents---the "steepness" of the learning curve---yet to be explained by theoretical work. Further, model improvements only shift the error but do not appear to affect the power-law exponent. We also show that model size scales sublinearly with data size. These scaling relationships have significant implications on deep learning research, practice, and systems. They can assist model debugging, setting accuracy targets, and decisions about data set growth. They can also guide computing system design and underscore the importance of continued computational scaling.

연구 동기 및 목표

  • DL 도메인 전반에서 학습 데이터 크기에 따라 일반화 오차가 어떻게 스케일링되는지 이해한다.
  • 학습 데이터가 증가함에 따라 필요한 모델 크기가 어떻게 커지는지 특성화한다.
  • 모델과 도메인 간에 스케일링 지수가 일관적인지 식별한다.
  • 스케일링 추세를 기반으로 데이터 수집, 모델 설계 및 컴퓨트 계획에 대한 실용적 지침을 제공한다.

제안 방법

  • 최신 SOTA 모델의 하이퍼파라미터를 축소한 변형을 차례로 더 큰 학습 데이터 조각(shard)에서 학습시킨다.
  • 상수항이 포함될 수 있는 멱법칙 형태의 학습 곡선을 맞추고 지수를 추출한다.
  • NMT, 언어 모델링, 이미지 분류 및 음성 인식에서 도메인별 스케일링을 탐구한다.
  • 데이터 크기에 따른 모델 크기의 스케일링을 비교하고 부분 선형 증가 패턴을 평가한다.
  • 일반화 규제(regulation)을 제거하여 용량 주도 효과를 관찰하는 대조 실험을 수행한다.
  • 몽테카를로 그리드 검색을 사용하여 샤드 크기에 따른 최적 적합 모델을 식별한다.

실험 결과

연구 질문

  • RQ1일반화 오차 곡선이 여러 도메인과 아키텍처에 걸쳐 DL에서 멱법칙을 따르는가?
  • RQ2데이터를 맞추기 위한 필요한 모델 크기가 학습 세트 크기에 따라 어떻게 스케일링되며, 그 증가가 부분 선형인가?
  • RQ3다른 도메인에 대한 스케일링 지수는 모델 유형, 옵티마이저, 손실 지표에 대해 강건한가?
  • RQ4DL에서 데이터 및 컴퓨트 계획에 대한 스케일링 법칙의 실용적 시사점은 무엇인가?

주요 결과

  • 일반화 오차는 모든 테스트 도메인에서 멱법칙 스케일링을 보이며, 지수(beta_g)는 일반적으로 -0.07에서 -0.35 사이로, 고전 이론보다 크기가 작은(절댓값이 작다) 경향이 있다.
  • 모델 크기는 데이터 크기에 대해 부분 선형으로 증가하며, 지수(beta_p)는 도메인에 따라 일반적으로 0.5에서 1.0 사이이다.
  • 복합(best-fit) 학습 곡선은 단일 모델 곡선을 넘어 멱법칙 영역을 확장하여 더 작은 유효 베타를 얻을 수 있다(예: NMT에서 약 -0.128).
  • 도메인마다 절편과 지수가 다르지만, 학습 곡선의 기울기는 주어진 도메인에서 모델과 최적화 알고리즘에 관계없이 일관되는 경향이 있다.
  • 데이터가 증가함에 따라 모델은 소량 데이터 구간에서 멱법칙 구간으로 이동하고, 결국은 환원 불가능한 오차 한계(Bayes 오차)로 수렴한다.
  • 결과는 데이터 수집, 모델 설계 및 컴퓨트 자원 배분을 안내하기 위한 스케일링 곡선을 활용하는 것을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.