QUICK REVIEW

[논문 리뷰] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

Shuohuan Wang, Yu Sun|arXiv (Cornell University)|2021. 12. 23.

Topic Modeling인용 수 36

한 줄 요약

이 논문은 260B 파라미터의 중국어 Dense 사전학습 모델(ERNIE 3.0 Titan)을 훈련시키며 신뢰할 수 있고 제어 가능한 생성과 온라인 증류를 도입하고, 68개 NLP 데이터셋에서 최첨단 성능을 입증한다.

ABSTRACT

Pre-trained language models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. GPT-3 has shown that scaling up pre-trained language models can further exploit their enormous potential. A unified framework named ERNIE 3.0 was recently proposed for pre-training large-scale knowledge enhanced models and trained a model with 10 billion parameters. ERNIE 3.0 outperformed the state-of-the-art models on various NLP tasks. In order to explore the performance of scaling up ERNIE 3.0, we train a hundred-billion-parameter model called ERNIE 3.0 Titan with up to 260 billion parameters on the PaddlePaddle platform. Furthermore, we design a self-supervised adversarial loss and a controllable language modeling loss to make ERNIE 3.0 Titan generate credible and controllable texts. To reduce the computation overhead and carbon emission, we propose an online distillation framework for ERNIE 3.0 Titan, where the teacher model will teach students and train itself simultaneously. ERNIE 3.0 Titan is the largest Chinese dense pre-trained model so far. Empirical results show that the ERNIE 3.0 Titan outperforms the state-of-the-art models on 68 NLP datasets.

연구 동기 및 목표

ER N IE 3.0을 최대 260B 파라미터로 확장하여 지식 강화 사전학습을 발전시키는 것.
사전학습 중에 신뢰할 수 있고 제어 가능한 생성을 통합하여 출력의 사실성 및 제어 가능성을 향상시키는 것.
추가 비용 최소화로 더 작은 배포 가능한 모델을 효율적으로 생성하기 위한 온라인 증류 프레임워크를 개발하는 것.
다양한 중국어 NLP 작업 및 데이터셋에서 확장성과 효과를 입증하는 것.

제안 방법

범용 표현 모듈(대형 Transformer-XL 백본)과 NLU 및 NLG를 위한 태스크 특화 모듈을 채택한다.
UKTP 및 Credible and Controllable Generations 프레임워크를 포함한 단어 인지형, 구조 인지형, 지식 인지형 사전학습 태스크를 설계한다.
텍스트 신빙성을 높이기 위한 자기지도 적대 손실과 생성 속성 제어를 위한 소프트 프롬프트가 적용된 제어 가능한 언어 모델링 손실을 도입한다.
사전학습 중에 여러 소형 학생 모델을 학습시키기 위한 온라인 증류 프레임워크(On-the-Fly Distillation, 교사 보조, 보조층 증류)를 제안한다.
260B 규모 학습을 위한 PaddlePaddle에서 4D 하이브리드 병렬성(데이터, 레이어 내 텐서 모델, 레이어 간 파이프라인 모델, 샤딩된 데이터 병렬성)과 이질적 하드웨어 인식 학습을 활용한다.
ER NIE 3.0 코퍼스 및 적대적/제어 가능한 데이터셋으로 사전학습하며, 생성 태스크에 대해 512 시퀀스 길이와 128 메모리 길이를 유지한다.

실험 결과

연구 질문

RQ1ER N IE 3.0을 수십억 파라미터에서 확장하는 것이 NLU/NLG 작업의 성능에 어떤 영향을 미치는가?
RQ2신뢰할 수 있고 제어 가능한 생성이 사전학습에 효과적으로 통합되어 출력의 사실성과 제어 가능성을 향상시킬 수 있는가?
RQ3온라인 증류가 추가 비용 없이 더 작고 배포-ready한 모델을 효율적으로 공개하는 데 실현 가능한가?
RQ4대규모 지식 강화 사전학습이 68개의 데이터셋으로 구성된 다양한 중국어 NLP 데이터셋에 미치는 영향은 무엇인가?

주요 결과

구성	NPUs	DP	전역 배치 크기	속도 향상
Default	392	1	512	-
Default	1568	4	2048	-
Resource-aware-partition	480	1	512	2.19
Resource-aware-partition	1920	4	2048	2.17

ERNIE 3.0 Titan이 68개 NLP 데이터셋에서 최첨단 모델을 능가한다.
모델은 260+억 파라미터(최대 260B)를 달성하고 우수한 생성 및 이해 능력을 보여준다.
온라인 증류를 통해 사전학습 중에 Titan을 여러 더 작은 모델로 증류하는 것이 표준 학습과 유사한 효율성을 제공한다.
신빙성 있는 적대 손실과 제어 가능한 언어 모델링 손실이 생성 텍스트의 품질과 제어 가능성을 향상시킨다.
자원 인지 분산 학습과 이질적 하드웨어(GPU 및 NPU) 기반 학습으로 강력한 약한 스케일러빌리티와 상당한 처리량 증가를 달성한다.
후속 대형 스케일 Dense 모델과 비교했을 때 다운스트림 작업에서 SOTA 결과를 보고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.