QUICK REVIEW

[논문 리뷰] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Greg Yang, J. Edward Hu|arXiv (Cornell University)|2022. 03. 07.

Parallel Computing and Optimization Techniques인용 수 22

한 줄 요약

본 논문은 Mu Transfer를 제안하며, Maximal Update Parametrization (μP)을 이용해 소형 프록시 모델의 하이퍼파라미터를 매우 큰 타깃 모델로 제로샷 튜닝으로 전달하고, 큰 속도 향상과 경쟁력 있는 성능을 달성한다.

ABSTRACT

Hyperparameter (HP) tuning in deep learning is an expensive process, prohibitively so for neural networks (NNs) with billions of parameters. We show that, in the recently discovered Maximal Update Parametrization (muP), many optimal HPs remain stable even as model size changes. This leads to a new HP tuning paradigm we call muTransfer: parametrize the target model in muP, tune the HP indirectly on a smaller model, and zero-shot transfer them to the full-sized model, i.e., without directly tuning the latter at all. We verify muTransfer on Transformer and ResNet. For example, 1) by transferring pretraining HPs from a model of 13M parameters, we outperform published numbers of BERT-large (350M parameters), with a total tuning cost equivalent to pretraining BERT-large once; 2) by transferring from 40M parameters, we outperform published numbers of the 6.7B GPT-3 model, with tuning cost only 7% of total pretraining cost. A Pytorch implementation of our technique can be found at github.com/microsoft/mup and installable via `pip install mup`.

연구 동기 및 목표

매우 큰 신경망에서 하이퍼파라미터 튜닝이 주요 병목 현상임을 동기 부여한다.
Maximal Update Parametrization (μP)를 도입하고 활용하여 훈련 중 안정적이고 너비에 불변하는 업데이트를 가능하게 한다.
작은 프록시 모델에서 큰 타깃 모델로의 제로샷 하이퍼파라미터 전달 기술 (μ Transfer)를 개발하고 검증한다.
대규모 언어 모델과 비전 모델을 포함한 Transformer 및 ResNet에서 상당한 튜닝 속도 향상과 성능 향상을 입증한다.

제안 방법

타깃 모델에 대해 Maximal Update Parametrization (μP)를 채택하여 너비 안정적인 업데이트를 보장한다.
타깃 모델의 더 작은 프록시 버전을 튜닝하여 하이퍼파라미터를 식별한다.
프록시에서 튜닝한 하이퍼파라미터를 풀 스케일 타깃 모델로 복사한다(제로샷 전이).
너비, 깊이, 배치 크기, 시퀀스 길이, 학습 시간에 걸쳐 Transformer 및 ResNet 아키텍처에서 μ Transfer를 경험적으로 검증한다.
실용 사용을 위한 μ Transfer의 PyTorch 구현을 제공한다.

실험 결과

연구 질문

RQ1작은 μP 매개변수화 모델에서 튜닝된 하이퍼파라미터가 훨씬 큰 μP 매개변수화 타깃 모델로 효과적으로 전달될 수 있는가?
RQ2μP 하에서 어떤 하이퍼파라미터가 전달 가능한지, 너비, 깊이, 배치 크기, 시퀀스 길이, 학습 시간 등에 따른 전이 한계는 무엇인가?
RQ3표준 매개변수화(SP)에서 너비 의존 실패가 μP 아래 사라져 신뢰할 수 있는 스케일링 규칙을 가능하게 하는가?
RQ4μ Transfer에 의해 실제 작업(예: 기계 번역, 언어 모델 사전 학습, 이미지 분류)에서 어떤 실용적 속도 향상과 성능 이득을 달성할 수 있는가?

주요 결과

μP는 안정적이고 너비에 무관한 최적 학습률을 제공하여 소형에서 대형 모델로의 하이퍼파라미터의 효과적 제로샷 전이를 가능하게 한다.
실험 결과 대규모 속도 향상을 보여주며, 하이퍼파라미터 튜닝 비용은 단일 BERT-large 사전 학습과 유사하고, GPT-3 규모의 결과를 7%의 총 사전 학습 비용으로 능가한다.
μ Transfer는 Transformer에서 너비에 걸쳐 작동하며, 전제 조건 하에 깊이, 배치 크기, 시퀀스 길이, 학습 시간에 걸쳐 작동하고 ResNet에도 이점을 보인다.
IWSLT14 De-En 및 WMT14 En-De 실험에서 작은 프록시로부터의 μ Transfer는 일반적인 튜닝에 비해 계산 비용이 크게 낮으면서 경쟁력 있는 BLEU 점수를 달성하며, SP를 사용하는 순진한 전이는 실패한다.
BERT 사전 학습 실험에서 약 13M 매개변수 프록시의 μ Transfer가 동일한 전체 튜닝 비용에서 발표된 기준선을 회복하거나 이를 능가하여 매우 큰 모델에 대한 실용적 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.