Skip to main content
QUICK REVIEW

[논문 리뷰] Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers

Yi Tay, Mostafa Dehghani|arXiv (Cornell University)|2021. 09. 22.
Topic Modeling참고 문헌 50인용 수 58
한 줄 요약

본 논문은 사전학습(pretraining)과 미세조정(fine-tuning)을 위한 Transformer 확장을 실증적으로 연구하고, 다운스트림 전이에서 모델 형태가 중요함, 확장 효과가 계산 자원 구역에 따라 달라짐, 그리고 매개변수 수를 줄이고 학습 속도를 높인 Pareto-효율적 모델을 위한 DeepNarrow 확장을 제안한다.

ABSTRACT

There remain many open questions pertaining to the scaling behaviour of Transformer architectures. These scaling decisions and findings can be critical, as training runs often come with an associated computational cost which have both financial and/or environmental impact. The goal of this paper is to present scaling insights from pretraining and finetuning Transformers. While Kaplan et al. presents a comprehensive study of the scaling behaviour of Transformer language models, the scope is only on the upstream (pretraining) loss. Therefore, it is still unclear if these set of findings transfer to downstream task within the context of the pretrain-finetune paradigm. The key findings of this paper are as follows: (1) we show that aside from only the model size, model shape matters for downstream fine-tuning, (2) scaling protocols operate differently at different compute regions, (3) widely adopted T5-base and T5-large sizes are Pareto-inefficient. To this end, we present improved scaling protocols whereby our redesigned models achieve similar downstream fine-tuning quality while having 50\% fewer parameters and training 40\% faster compared to the widely adopted T5-base model. We publicly release over 100 pretrained checkpoints of different T5 configurations to facilitate future research and analysis.

연구 동기 및 목표

  • 업스트림 사전학습 확장이 다운스트림 전이 성능과 어떤 관련이 있는지 평가한다.
  • 모델 형태(깊이 vs 너비)가 태스크 전반의 미세조정 결과에 어떤 영향을 미치는지 조사한다.
  • 다른 컴퓨트 구역과 모델 크기에 따른 확장 동작을 특징짓는다.
  • 변환기(Transformers)로의 전이학습에서 Pareto-효율적인 실용적 확장 전략을 식별한다.
  • 향후 확장 연구를 촉진하기 위한 사전학습 체크포인트와 도구를 공개한다.

제안 방법

  • 나노에서 XXXL에 이르는 광범위한 크기를 위해 T5 아키텍처를 바탕으로 상대적 주의(attention)를 사용하는 인코더-디코더 Transformer를 사용한다.
  • Colossal Cleaned Common Crawl (C4)에서 span 기반 MLM으로 2^19 단계의 사전학습을 TPU-v3 하드웨어에서 수행한다.
  • GLUE, SuperGLUE, SQuAD를 포함한 17개 다운스트림 태스크에 대해 미세조정하고, 집계된 SuperGLUE 정확도를 보고한다.
  • 스케일링 연산자(깊이, 너비, 히든 사이즈, KV, 헤드 등)를 체계적으로 변화시키고 상향전처리(perplexity)와 다운스트림 전이를 측정한다.
  • 구성의 Pareto-frontier를 분석하여 매개변수, FLOPs, 처리량 측면에서 효율성을 평가한다.
  • 공개적으로 100개가 넘는 사전학습 체크포인트를 공개하고 ViT에 대한 교차 도메인 확인을 수행한다.

실험 결과

연구 질문

  • RQ1사전학습에서 관찰된 확장 동작이 프리트레인-파인튜닝 설정의 다운스트림 전이에 일반화되는가?
  • RQ2모델 형태(깊이 vs 너비)가 태스크 전반의 다운스트림 전이 성능에 어떤 영향을 미치는가?
  • RQ3스케일링 전략이 서로 다른 컴퓨트 구역(소형 대 대형) 및 모달리티에서 같은 효율성을 낳는가?
  • RQ4다운스트림 품질을 해치지 않으면서 Pareto 효율성을 개선할 수 있는 실용적 확장 프로토콜을 도출할 수 있는가?
  • RQ5NLP 태스크 전반에 걸쳐 발견이 ViT 같은 비전 모델로도 전이 가능한가?

주요 결과

  • 다운스트림 전이 성능은 모델 형태에 크게 의존하며, 단순한 매개변수 수보다 중요하다(상향 동향은 업스트림과 다름).
  • 사전학습 perplexity는 종종 다운스트림 품질을 잘 예측하지 못하며, 업스트림 이득이 항상 다운스트림 태스크로 전이되지는 않는다.
  • T5-base/Large 같은 표준 크기가 잘 선택된 대안 구성을 훨씬 못 미치는 Pareto-비효율적 구성인 경우가 많다.
  • 확장 효과는 컴퓨트 구역에 따라 다르며, 소규모에서 효과적인 전략이 대규모 컴퓨트 구역에서 일반화되지 않을 수 있다.
  • DeepNarrow 확장(깊이를 너비보다 우선하는 방식)은 매개변수 수가 적고 학습이 더 빨리 진행되면서도 다운스트림 성능이 유사하거나 더 우수한 Pareto-효율적 모델을 낳으며, 이 접근법은 ViT 및 GLUE/SuperGLUE/SQuAD를 넘어 추가 NLP 태스크에도 전이된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.