Skip to main content
QUICK REVIEW

[논문 리뷰] PanGu-$α$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation

Wei Zeng, Xiaozhe Ren|arXiv (Cornell University)|2021. 04. 26.
Topic Modeling참고 문헌 39인용 수 94
한 줄 요약

PanGu-α는 2048 Ascend 910 프로세서에서 다섯 차원의 자동 병렬화를 활용하여 최대 200B 매개변수의 중국어 자기회귀 언어 모델을 학습하고, 1.1TB 규모의 고품질 중국어 말뭉치를 사용하며, 중국어 NLP 태스크에서 few-shot/zero-shot 능력을 시연한다.

ABSTRACT

Large-scale Pretrained Language Models (PLMs) have become the new paradigm for Natural Language Processing (NLP). PLMs with hundreds of billions parameters such as GPT-3 have demonstrated strong performances on natural language understanding and generation with extit{few-shot in-context} learning. In this work, we present our practice on training large-scale autoregressive language models named PanGu-$α$, with up to 200 billion parameters. PanGu-$α$ is developed under the MindSpore and trained on a cluster of 2048 Ascend 910 AI processors. The training parallelism strategy is implemented based on MindSpore Auto-parallel, which composes five parallelism dimensions to scale the training task to 2048 processors efficiently, including data parallelism, op-level model parallelism, pipeline model parallelism, optimizer model parallelism and rematerialization. To enhance the generalization ability of PanGu-$α$, we collect 1.1TB high-quality Chinese data from a wide range of domains to pretrain the model. We empirically test the generation ability of PanGu-$α$ in various scenarios including text summarization, question answering, dialogue generation, etc. Moreover, we investigate the effect of model scales on the few-shot performances across a broad range of Chinese NLP tasks. The experimental results demonstrate the superior capabilities of PanGu-$α$ in performing various tasks under few-shot or zero-shot settings.

연구 동기 및 목표

  • 영어 중심의 작업을 넘어 중국어 pretrained 언어 모델의 규모 확장을 자극한다.
  • 다음 토큰 예측을 위한 추가 쿼리 레이어가 있는 Transformer 기반 자동회귀 모델을 개발한다.
  • 다양한 출처에서 고품질의 1.1TB 중국어 코퍼스를 구축하고 사전 학습을 위한 전처리를 수행한다.
  • MindSpore Auto-parallel을 활용한 다수 디바이스 간의 확장 가능한 분산 학습을 입증한다.
  • 다양한 중국어 NLP 태스크에서 소수샷 및 제로샷 성능을 평가한다.

제안 방법

  • 다음 토큰 예측을 위해 상단에 추가 쿼리 레이어를 둔 단방향 Transformer 디코더를 사용한다.
  • 2.6B, 13B, 200B 매개변수의 PanGu-α 모델을 1.1TB 중국어 코퍼스에서 학습한다.
  • MindSpore Auto-parallel에서 토폴로지 인지 스케줄링과 함께 다차원 병렬성(데이터, 모델의 op-레벨, 파이프라인 모델, 옵티마이저 모델, 재메모리화)을 적용한다.
  • Q/K/V와 입력에 대한 특정 샤딩 전략으로 2048 Ascend 910 프로세서에 모델과 데이터를 분할한다.
  • 다음 토큰 예측을 위한 40k BPE 토크나이저와 1024 시퀀스 길이로 사전 학습하며, 데이터 품질의 프록시로 교차 엔트로피를 사용한다.
  • 데이터 품질을 수동 및 모델 기반 평가를 통해 평가하며, 퍼플렉시티를 데이터 품질의 프록시로 포함한다.

실험 결과

연구 질문

  • RQ1PanGu-α가 중국어 언어 모델링에서 매개변수 수와 데이터 크기를 어떻게 확장하는가?
  • RQ2다섯 차원의 Auto-parallelism이 대형 GPU/CPU 클러스터에서 200B 매개변수 모델의 효율적 학습을 가능하게 하는가?
  • RQ3모델 규모가 중국어 NLP 태스크에서 퍼플렉시티 및 소수샷/제로샷 성능에 미치는 영향은 무엇인가?
  • RQ4대규모에서 고품질의 중국어 사전 학습 데이터를 얻기 위한 데이터 큐레이션 및 전처리 전략은 무엇인가?
  • RQ5요약, QA, 대화 및 기타 태스크에서 PanGu-α의 생성 및 소수샷 능력은 어떠한가?

주요 결과

  • PanGu-α 모델은 모델 크기가 커질수록 퍼플렉시티가 낮아지며(2.6B: 19.33; 13B: 17.69; 200B: 15.59, 검증 세트에서).
  • 200B 모델은 학습 중 손실이 약 2.49로 수렴하여 더 많은 학습으로 향상 가능성이 있음을 시사한다.
  • 더 큰 PanGu-α 모델은 다양한 중국어 NLP 태스크에서 소수샷/제로샷 설정에서 더 강한 성능을 달성한다.
  • 1.1TB 중국어 코퍼스는 80TB 원시 데이터에서 구성되었으며, 규칙 기반 정리, 모델 기반 필터링, 중복 제거를 통해 구성되었다.
  • 다섯 차원 병렬성은 2048 Ascend 910 프로세서에서 토폴로지 인지 스케줄링과 함께 엔드-투-엔드 학습을 가능하게 한다.
  • 저자들은 비슷한 대규모 사전 학습 구성을 돕기 위한 MindSpore의 오픈 소스 Auto-parallel 도구를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.