QUICK REVIEW

[논문 리뷰] PanGu-$α$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation

Wei Zeng, Xiaozhe Ren|arXiv (Cornell University)|2021. 04. 26.

Topic Modeling참고 문헌 39인용 수 94

한 줄 요약

PanGu-α는 2048 Ascend 910 프로세서에서 다섯 차원의 자동 병렬화를 활용하여 최대 200B 매개변수의 중국어 자기회귀 언어 모델을 학습하고, 1.1TB 규모의 고품질 중국어 말뭉치를 사용하며, 중국어 NLP 태스크에서 few-shot/zero-shot 능력을 시연한다.

ABSTRACT

Large-scale Pretrained Language Models (PLMs) have become the new paradigm for Natural Language Processing (NLP). PLMs with hundreds of billions parameters such as GPT-3 have demonstrated strong performances on natural language understanding and generation with extit{few-shot in-context} learning. In this work, we present our practice on training large-scale autoregressive language models named PanGu-$α$, with up to 200 billion parameters. PanGu-$α$ is developed under the MindSpore and trained on a cluster of 2048 Ascend 910 AI processors. The training parallelism strategy is implemented based on MindSpore Auto-parallel, which composes five parallelism dimensions to scale the training task to 2048 processors efficiently, including data parallelism, op-level model parallelism, pipeline model parallelism, optimizer model parallelism and rematerialization. To enhance the generalization ability of PanGu-$α$, we collect 1.1TB high-quality Chinese data from a wide range of domains to pretrain the model. We empirically test the generation ability of PanGu-$α$ in various scenarios including text summarization, question answering, dialogue generation, etc. Moreover, we investigate the effect of model scales on the few-shot performances across a broad range of Chinese NLP tasks. The experimental results demonstrate the superior capabilities of PanGu-$α$ in performing various tasks under few-shot or zero-shot settings.

연구 동기 및 목표

영어 중심의 작업을 넘어 중국어 pretrained 언어 모델의 규모 확장을 자극한다.
다음 토큰 예측을 위한 추가 쿼리 레이어가 있는 Transformer 기반 자동회귀 모델을 개발한다.
다양한 출처에서 고품질의 1.1TB 중국어 코퍼스를 구축하고 사전 학습을 위한 전처리를 수행한다.
MindSpore Auto-parallel을 활용한 다수 디바이스 간의 확장 가능한 분산 학습을 입증한다.
다양한 중국어 NLP 태스크에서 소수샷 및 제로샷 성능을 평가한다.

제안 방법

다음 토큰 예측을 위해 상단에 추가 쿼리 레이어를 둔 단방향 Transformer 디코더를 사용한다.
2.6B, 13B, 200B 매개변수의 PanGu-α 모델을 1.1TB 중국어 코퍼스에서 학습한다.
MindSpore Auto-parallel에서 토폴로지 인지 스케줄링과 함께 다차원 병렬성(데이터, 모델의 op-레벨, 파이프라인 모델, 옵티마이저 모델, 재메모리화)을 적용한다.
Q/K/V와 입력에 대한 특정 샤딩 전략으로 2048 Ascend 910 프로세서에 모델과 데이터를 분할한다.
다음 토큰 예측을 위한 40k BPE 토크나이저와 1024 시퀀스 길이로 사전 학습하며, 데이터 품질의 프록시로 교차 엔트로피를 사용한다.
데이터 품질을 수동 및 모델 기반 평가를 통해 평가하며, 퍼플렉시티를 데이터 품질의 프록시로 포함한다.

실험 결과

연구 질문

RQ1PanGu-α가 중국어 언어 모델링에서 매개변수 수와 데이터 크기를 어떻게 확장하는가?
RQ2다섯 차원의 Auto-parallelism이 대형 GPU/CPU 클러스터에서 200B 매개변수 모델의 효율적 학습을 가능하게 하는가?
RQ3모델 규모가 중국어 NLP 태스크에서 퍼플렉시티 및 소수샷/제로샷 성능에 미치는 영향은 무엇인가?
RQ4대규모에서 고품질의 중국어 사전 학습 데이터를 얻기 위한 데이터 큐레이션 및 전처리 전략은 무엇인가?
RQ5요약, QA, 대화 및 기타 태스크에서 PanGu-α의 생성 및 소수샷 능력은 어떠한가?

주요 결과

PanGu-α 모델은 모델 크기가 커질수록 퍼플렉시티가 낮아지며(2.6B: 19.33; 13B: 17.69; 200B: 15.59, 검증 세트에서).
200B 모델은 학습 중 손실이 약 2.49로 수렴하여 더 많은 학습으로 향상 가능성이 있음을 시사한다.
더 큰 PanGu-α 모델은 다양한 중국어 NLP 태스크에서 소수샷/제로샷 설정에서 더 강한 성능을 달성한다.
1.1TB 중국어 코퍼스는 80TB 원시 데이터에서 구성되었으며, 규칙 기반 정리, 모델 기반 필터링, 중복 제거를 통해 구성되었다.
다섯 차원 병렬성은 2048 Ascend 910 프로세서에서 토폴로지 인지 스케줄링과 함께 엔드-투-엔드 학습을 가능하게 한다.
저자들은 비슷한 대규모 사전 학습 구성을 돕기 위한 MindSpore의 오픈 소스 Auto-parallel 도구를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.