QUICK REVIEW

[논문 리뷰] Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning

Shaohua Wu, Xudong Zhao|arXiv (Cornell University)|2021. 10. 10.

Topic Modeling참고 문헌 19인용 수 25

한 줄 요약

Yuan 1.0은 대규모 배포 설정으로 학습된 245B 싱글톤 언어 모델로, 강력한 제로샷 및 소샷 성능을 달성하며, 5TB의 고품질 중국어 코퍼스와 보정/레이블 확장 기법의 도움을 받았습니다.

ABSTRACT

Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, we propose a method that incorporates large-scale distributed training performance into model architecture design. With this method, Yuan 1.0, the current largest singleton language model with 245B parameters, achieves excellent performance on thousands GPUs during training, and the state-of-the-art results on NLP tasks. A data processing method is designed to efficiently filter massive amount of raw data. The current largest high-quality Chinese corpus with 5TB high quality texts is built based on this method. In addition, a calibration and label expansion method is proposed to improve the Zero-Shot and Few-Shot performance, and steady improvement is observed on the accuracy of various tasks. Yuan 1.0 presents strong capacity of natural language generation, and the generated articles are difficult to distinguish from the human-written ones.

연구 동기 및 목표

대규모 분산 학습이 모델 아키텍처에 통합되어 245B 싱글톤 언어 모델을 가능하게 할 수 있음을 입증한다.
데이터 샘플링 타협 없이 사전 학습을 위한 5TB 고품질 중국어 코퍼스를 구축하고 활용한다.
아키텍처 설계, 사전 학습 대 제로샷/소샷 성능 간의 상호 작용을 조사하고, 제로샷/소샷 결과를 향상시키기 위한 보정 및 레이블 확장을 도입한다.

제안 방법

수천 개의 GPU에서 245B 매개변수 모델을 학습하기 위해 3차원 병렬성(텐서, 파이프라인, 데이터)을 채택한다.
언어 모델(LM)과 프리픽스 언어 모델(PLM) 아키텍처를 비교하고 제로샷 및 소샷 동작을 분석한다.
다양한 출처에서 5TB 고품질 중국어 코퍼스를 구성하기 위한 대규모 데이터 필터링 시스템(MDFS)을 개발한다.
제로샷 및 소샷 작업에서 맥락 내 학습 편견을 완화하기 위해 보정 및 레이블 확장을 적용한다.

실험 결과

연구 질문

RQ1매우 큰 싱글톤 LM의 효율적인 학습을 가능하게 하기 위해 모델 아키텍처와 분산 학습 설계를 어떻게 조정할 수 있는가?
RQ2사전 학습에 적합한 5TB 고품질 중국어 코퍼스를 얻기 위한 데이터 처리 및 필터링 전략은 무엇인가?
RQ3LM과 PLM 아키텍처는 제로샷 및 소샷 설정에서 어떻게 수행되며, 보정이 이러한 결과를 어떻게 향상시킬 수 있는가?
RQ4보정 및 레이블 확장이 CLUE 유사 작업에서 제로샷/텍스트 프롬프트 성능을 어느 정도 향상시키는가?

주요 결과

Yuan 1.0은 수천 개의 GPU에서 학습된 245B 매개변수 싱글톤 모델로, 2128-GPU 클러스터에서 이론 피크의 45%에 해당하는 안정적인 성능을 달성한다.
5TB 고품질 중국어 코퍼스는 데이터를 두 번 샘플링하지 않고도 사전 학습이 가능하게 하며, 규모 면에서 여러 대형 중국어 코퍼스를 능가한다.
보정 및 레이블 확장은 특정 작업(Eprstmt, Tnews, Csldcp)에서 제로샷 정확도를 크게 개선하고 레이블 분포의 바이어스를 줄인다.
제로샷에서 LM 및 PLM 변형은 강력한 맥락 내 학습을 달성하고 여러 ZeroCLUE 작업에서 공개된 SOTA를 종종 능가한다; 소샷에서 보정은 도움이 되지만 큰 클래스 수가 일부 데이터 세트에서 이득을 방해할 수 있다.
Yuan 245B는 동시대 모델과 비교해 경쟁력 있거나 우수한 생성 및 QA 능력을 보여주며, WebQA 및 CMRC2018 같은 과제에서 주목할만한 제로샷 생성 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.