QUICK REVIEW

[논문 리뷰] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

Yu Sun, Shuohuan Wang|arXiv (Cornell University)|2021. 07. 05.

Topic Modeling참고 문헌 79인용 수 193

한 줄 요약

ER N I 3.0은 대규모 지식 강화 사전학습 프레임워크를 도입하여 자가회귀(auto-regressive)와 자가인코딩(auto-encoding) 목표를 융합하고, 지속적인 다-패러다임 접근법과 4TB의 일반 텍스트 및 지식 그래프 데이터를 활용하여 언어 이해와 생성 과제 모두에서 강력한 성능을 달성합니다.

ABSTRACT

Pre-trained models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown that scaling up pre-trained language models can improve their generalization abilities. Particularly, the GPT-3 model with 175 billion parameters shows its strong task-agnostic zero-shot/few-shot learning capabilities. Despite their success, these large-scale models are trained on plain texts without introducing knowledge such as linguistic knowledge and world knowledge. In addition, most large-scale models are trained in an auto-regressive way. As a result, this kind of traditional fine-tuning approach demonstrates relatively weak performance when solving downstream language understanding tasks. In order to solve the above problems, we propose a unified framework named ERNIE 3.0 for pre-training large-scale knowledge enhanced models. It fuses auto-regressive network and auto-encoding network, so that the trained model can be easily tailored for both natural language understanding and generation tasks with zero-shot learning, few-shot learning or fine-tuning. We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph. Empirical results show that the model outperforms the state-of-the-art models on 54 Chinese NLP tasks, and its English version achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing the human performance by +0.8% (90.6% vs. 89.8%).

연구 동기 및 목표

대규모 사전학습에 지식(언어적 지식 및 세계 지식)을 통합하여 다운스트림 태스크 성능을 향상시킨다.
NLU, NLG 및 지식 추출 태스크를 지원하는 단일 Continual Multi-Paradigms Unified Pre-training Framework를 제안한다.
Plain text 4TB와 지식 그래프를 함께 사용하는 10B-parameter ERNIE 3.0 모델을 구축한다.
최신 모델 대비 54개 중국어 태스크와 영어 SuperGLUE에서 광범위한 NLP 벤치마크에서 개선을 입증한다.
효율적인 대규모 지식 강화 사전학습을 가능하게 하는 훈련 전략(점진적 학습, 다중 작업 목표)과 데이터 큐레이션 방법을 제공한다.

제안 방법

공유되는 Universal Representation Module과 두 개의 Task-specific Representation Module(NLU와 NLG)을 제안하여 기본 피처를 공유하면서 태스크별 최상위 표현을 학습한다.
백본은 Transformer-XL을 사용하여 보조 메모리를 가진 장기 의존성을 모델링하고, 보편 모듈에 대해 NLU는 양방향 인코딩을, NLG는 태스크별 모듈에서 단방향 인코딩을 사용한다.
단어 인지(지식 마스킹된 언어 모델링), 구조 인지(문장 재배열, 문장 간 거리), 지식 인지(UKTP: 보편 지식-텍스트 예측) 및 문서 수준 언어 모델링 등 직렬의 사전학습 태스크들을 수행한다.
연속 다-패러다임 학습을 도입하여 공유 인코더와 태스크별 디코더를 통해 다중 태스크 사전학습을 가능하게 하고, 제로샷, 파샷 또는 파인튜닝으로 다운스트림 태스크에 적용한다.
데이터: 일반 텍스트와 Baidu 지식 그래프를 결합한 4TB의 중국어 말뭉치를 사용; 데이터 품질 향상을 위한 중복 제거, 필터링, 분할 단계.
사전학습 설정: 공유 모듈은 48-레이어 보편 Transformer-XL(숨김 크기 4,096, 헤드 64) 및 태스크별 모듈은 12-레이어(숨김 768, 헤드 12); 총 10B 매개변수; PaddlePaddle를 사용하여 6144 NVIDIA V100 GPU에서 375B 토큰으로 학습; 메모리 및 시퀀스 길이 고려한 점진적 학습.

실험 결과

연구 질문

RQ1지식 강화된 사전학습 프레임워크가 대규모에서 언어 이해와 생성 과제 모두를 개선할 수 있는가?
RQ2자동회귀와 자동인코딩 목표를 지속적 다중 작업 학습과 융합하면 단일 패러다임 사전학습에 비해 다운스트림 과제를 위한 표현이 더 좋아지는가?
RQ3일반 텍스트와 함께 지식 그래프를 도입하는 것이 10B-parameter 모델의 다양한 NLP 벤치마크에서 성능에 어떤 영향을 미치는가?
RQ4공유된 보편 표현과 태스크별 모듈에서 시작할 때 점진적 개별 튜닝은 어떻게 작동하는가?

주요 결과

ERNIE 3.0은 54개 중국어 NLP 벤치마크에서 최첨단 결과를 달성하여 강력한 베이스라인을 크게 능가한다.
ERNIE 3.0의 영어 버전은 보고 시점의 SuperGLUE 벤치마크에서 1위를 차지했다(90.6% 대 89.8% 사람 동등성).
단일 프레임워크가 NLU와 NLG 태스크 모두에 대해 제로샷, 파샷, 그리고 파인튜닝 패러다임을 가능하게 한다.
대규모 지식 통합과 지속적 다-패러다임 사전학습의 결합은 이해 및 생성 태스크 모두에서 이전 모델에 비해 강력한 개선을 가져온다.
점진적 학습과 지식 그래프를 포함한 대규모 고품질 코퍼스는 학습 안정성 및 성능 향상에 기여한다.
모델은 감정 분석, 자연어 추론, 독해, 명명된 엔티티 인식, 생성 태스크 등 다양한 과제에서 강건한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.