Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond neural scaling laws: beating power law scaling via data pruning

Ben Sorscher, Robert Geirhos|arXiv (Cornell University)|2022. 06. 29.
Anomaly Detection Techniques and Applications인용 수 85
한 줄 요약

이 논문은 데이터 가지치기가 데이터셋 크기에 따른 전통적 거듭제곱 법칙형 오차 스케일링을 능가할 수 있음을 이론과 실험으로 보여주며, Pareto-optimal 가지치기에서 지수에 근접한 이득을 달성하고, 라벨 없이도 대규모에서 감독 학습과 비교할 만한 성능의 자기지도 가지치기 지표를 도입합니다.

ABSTRACT

Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how in theory we can break beyond power law scaling and potentially even reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this improved scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling in practice on ResNets trained on CIFAR-10, SVHN, and ImageNet. Next, given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.

연구 동기 및 목표

  • 가지치기 훈련이 데이터셋 크기에 따른 표준 거듭제곱 법칙형 에러 스케일링을 능가할 수 있는지 동기 부여 및 분석
  • 학생-교사 퍼셉트론 설정에서 데이터 가지치기에 대한 이론적 프레임워크를 개발하여 스케일링 동작을 예측
  • 실모델과 실제 데이터셋에서 가지치기된 데이터셋 크기로 지수에 근접한 스케일링을 경험적으로 검증
  • ImageNet 규모에서 기존 데이터 가지치기 지표를 벤치마킹하여 강점/제한점 식별
  • 레이블이 없는 상태에서 감독 지표의 성능에 근접하는 자기지도 가지치기 지표를 제안

제안 방법

  • Probe 모델이 여유도(마진)로 예시를 순위화하고 가지치기된 부분집합을 완전히 학습시키는 마진 기반 가지치기 알고리즘을 형식화
  • 고차원 극한에서 복제법(replica-method) 기반 분석을 사용해 ε(α_tot,f,θ)를 도출하고 최적의 가지치기 regime을 예측
  • 예측 도출: (a) 초기 데이터 양에 의존하는 최적 가지치기 전략; (b) Pareto-최적 가지치기가 가지치기 데이터 크기에 대해 지수적 스케일링을 낼 수 있음
  • ResNet 및 ViT를 CIFAR-10, SVHN, ImageNet 및 CIFAR-10 전이 태스크에서 대규모 실험을 수행하여 이론 테스트
  • ImageNet에서 8개의 감독 가지치기 지표를 벤치마킹하고 SSL 임베딩의 클러스터링에 기초한 자기지도 프로토타입을 도입
  • 자기지도 가지치기 지표(클러스터 centroid와의 프로토타입 거리)를 제안하고 이를 감독 지표와 비교

실험 결과

연구 질문

  • RQ1데이터 가지치기가 데이터셋 크기에 따른 테스트 에러의 거듭제곱 법칙 스케일링을 능가할 수 있는가?
  • RQ2다양한 초기 데이터 양에 대해 어떤 가지치기 전략(어떤 예시를 유지하는지)이 테스트 성능을 극대화하는가?
  • RQ3Pareto-최적 가지치기 전략이 실제로 가지치기 데이터 크기에 대해 지수에 근접한 스케일링을 가능하게 하는가?
  • RQ4어떤 가지치기 지표가 ImageNet까지 스케일링되는가, 라벨 없이도 자기지도 방식이 어떻게 작동하는가?
  • RQ5Foundation 모델에서 가지치기로 사전 학습이나 파인튜닝 데이터를 다듬는 것이 다운스트림 태스크에서 성능을 유지하거나 향상시키는가?

주요 결과

  • 해석적 이론은 두 가지 양상을 예측: 데이터가 충분할 때는 어려운 예시를 유지하고, 데이터가 부족할 때는 쉬운 예시를 유지하며, Pareto-최적 가지치기는 가지치기 크기에 대해 지수에 근접한 스케일링을 낼 수 있다.
  • SVHN, CIFAR-10, ImageNet의 ResNet 및 CIFAR-10의 ViT에서 가지치기된 데이터셋 크기로 지수에 근접한 스케일링이 관찰되었고, CIFAR-10에서 ViT도 관찰되었다.
  • 대부분의 기존 가지치기 지표는 ImageNet으로 확장하는 데 부진하며, 최상위 지표는 많은 계산 또는 라벨이 필요하지만, 새로운 자기지도 프로토타입 지표가 많은 설정에서 감독 지표와 대응한다.
  • SSL 임베딩에서 클러스터링을 활용한 자기지도 가지치기는 강력한 감독 지표와 대등한 성능을 보이며 라벨 없이도 작동한다.
  • 사전학습 데이터(상류)를 가지치기하여 다운스트림 태스크 파인튜닝에서 전체 사전학습 데이터를 사용하는 경우와 비교해 성능이 유사하거나 우수해질 수 있어 데이터 가지치기를 통한 효율적 전이학습이 가능함
  • 대규모 ImageNet 벤치마크는 상당한 가지치기 이점을 보여주며 방법 간의 지표 성능에 대한 정보를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.