Skip to main content
QUICK REVIEW

[논문 리뷰] TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models

Zhuohan Li, Siyuan Zhuang|arXiv (Cornell University)|2021. 02. 16.
Topic Modeling참고 문헌 31인용 수 33
한 줄 요약

TeraPipe는 Transformer LMs에 대한 토큰 수준 파이프라인 병렬화를 도입하고, AWS에서의 이전 동기식 모델-병렬 방법 대비 GPT-3-175B에서 최대 5.0배의 학습 속도 향상을 달성한다.

ABSTRACT

Model parallelism has become a necessity for training modern large-scale deep language models. In this work, we identify a new and orthogonal dimension from existing model parallel approaches: it is possible to perform pipeline parallelism within a single training sequence for Transformer-based language models thanks to its autoregressive property. This enables a more fine-grained pipeline compared with previous work. With this key idea, we design TeraPipe, a high-performance token-level pipeline parallel algorithm for synchronous model-parallel training of Transformer-based language models. We develop a novel dynamic programming-based algorithm to calculate the optimal pipelining execution scheme given a specific model and cluster configuration. We show that TeraPipe can speed up the training by 5.0x for the largest GPT-3 model with 175 billion parameters on an AWS cluster with 48 p3.16xlarge instances compared with state-of-the-art model-parallel methods. The code for reproduction can be found at https://github.com/zhuohan123/terapipe

연구 동기 및 목표

  • 단일 디바이스 메모리 한계를 넘는 매우 큰 Transformer LMs를 학습하기 위한 더 심도 있는 모델 병렬화의 필요성을 제시한다.
  • 토큰 시퀀스에 따라 오토회귀 의존성을 활용하는 새로운 세밀한 파이프라인 차원을 식별한다.
  • 최대 파이프라인 효율을 위한 최적 토큰 조각(partition) 분할을 계산하기 위해 동적 프로그래밍 기반 알고리즘을 개발한다.

제안 방법

  • 단일 입력 시퀀스 내에서 토큰 차원을 가로지르며 파이프라인을 구성하는 토큰 수준 파이프라인 병렬화를 제안한다.
  • 토큰 조각 크기와 클러스터 특성의 함수로 순전파/역전파 지연을 모델링한다.
  • 학습 지연을 최소화하기 위해 토큰 차원에서 최적의 슬라이싱 방식을 찾는 동적 프로그래밍 알고리즘을 개발한다.
  • 간단한 성능 모델로 순전파 시간을 추정하고 이를 통해 DP 최적화를 안내한다.
  • 직교성 보여주기: TeraPipe는 기존의 데이터/모델 병렬 방법(microbatching, operation partitioning, data parallelism)과 직교적으로 결합될 수 있다.

실험 결과

연구 질문

  • RQ1자가회귀 Transformer에서 파이프라인 병렬화를 계층 차원에서 토큰 차원으로 확장하는 방법은 무엇인가?
  • RQ2주어진 LM과 클러스터에 대해 토큰 차원에서 어떤 슬라이싱 방식이 총 학습 지연을 최소화하는가?
  • RQ3토큰 수준 파이프라인이 다른 모델 병렬 기법 및 데이터 병렬성과 어떻게 상호 작용하는가?
  • RQ4토큰 수준 파이프라인 병렬화를 사용해 대형 GPT-3 규모 모델에서 어떤 성능 향상을 얻을 수 있는가?
  • RQ5시퀀스 길이가 토큰 수준 파이프라인 병렬화의 효과에 어떠한 영향을 미치는가?

주요 결과

  • TeraPipe는 대형 LM에 대해 상당한 속도 향상을 제공하며, 48 AWS p3.16xlarge GPU에서 GPT-3-175B에 대해 기존의 동기식 모델-병렬 방법 대비 최대 5.0배 빠른 학습을 달성한다.
  • 동적 프로그래밍 접근법은 파이프라인 효율성을 최대화하기 위한 최적 토큰 슬라이싱 방식을 효과적으로 결정하며, 조사된 경우에 균일 슬라이싱보다 약 1.04x–1.12x 우수하다.
  • 메서드는 메모리 제약으로 배치 크기를 줄이고 파이프라인 단계를 늘리기 때문에 더 큰 모델에서 더 큰 이점을 제공하며, 토큰 수준 파이프라이닝이 더 많은 포화 기회를 제공한다.
  • 더 긴 입력 시퀀스 길이는 토큰 수준 파이프라이닝의 잠재적 이점을 크게 높여 주며, 관찰된 속도 향상은 시퀀스 길이가 커질수록 증가한다.
  • TeraPipe는 기존의 마이크로배치 기반 파이프라인, 연산 분할, 데이터 병렬성 등 기존 병렬 학습 방법과 직교하며 함께 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.