Skip to main content
QUICK REVIEW

[논문 리뷰] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

Yu Sun, Shuohuan Wang|arXiv (Cornell University)|2021. 07. 05.
Topic Modeling참고 문헌 79인용 수 193
한 줄 요약

ER N I 3.0은 대규모 지식 강화 사전학습 프레임워크를 도입하여 자가회귀(auto-regressive)와 자가인코딩(auto-encoding) 목표를 융합하고, 지속적인 다-패러다임 접근법과 4TB의 일반 텍스트 및 지식 그래프 데이터를 활용하여 언어 이해와 생성 과제 모두에서 강력한 성능을 달성합니다.

ABSTRACT

Pre-trained models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown that scaling up pre-trained language models can improve their generalization abilities. Particularly, the GPT-3 model with 175 billion parameters shows its strong task-agnostic zero-shot/few-shot learning capabilities. Despite their success, these large-scale models are trained on plain texts without introducing knowledge such as linguistic knowledge and world knowledge. In addition, most large-scale models are trained in an auto-regressive way. As a result, this kind of traditional fine-tuning approach demonstrates relatively weak performance when solving downstream language understanding tasks. In order to solve the above problems, we propose a unified framework named ERNIE 3.0 for pre-training large-scale knowledge enhanced models. It fuses auto-regressive network and auto-encoding network, so that the trained model can be easily tailored for both natural language understanding and generation tasks with zero-shot learning, few-shot learning or fine-tuning. We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph. Empirical results show that the model outperforms the state-of-the-art models on 54 Chinese NLP tasks, and its English version achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing the human performance by +0.8% (90.6% vs. 89.8%).

연구 동기 및 목표

  • 대규모 사전학습에 지식(언어적 지식 및 세계 지식)을 통합하여 다운스트림 태스크 성능을 향상시킨다.
  • NLU, NLG 및 지식 추출 태스크를 지원하는 단일 Continual Multi-Paradigms Unified Pre-training Framework를 제안한다.
  • Plain text 4TB와 지식 그래프를 함께 사용하는 10B-parameter ERNIE 3.0 모델을 구축한다.
  • 최신 모델 대비 54개 중국어 태스크와 영어 SuperGLUE에서 광범위한 NLP 벤치마크에서 개선을 입증한다.
  • 효율적인 대규모 지식 강화 사전학습을 가능하게 하는 훈련 전략(점진적 학습, 다중 작업 목표)과 데이터 큐레이션 방법을 제공한다.

제안 방법

  • 공유되는 Universal Representation Module과 두 개의 Task-specific Representation Module(NLU와 NLG)을 제안하여 기본 피처를 공유하면서 태스크별 최상위 표현을 학습한다.
  • 백본은 Transformer-XL을 사용하여 보조 메모리를 가진 장기 의존성을 모델링하고, 보편 모듈에 대해 NLU는 양방향 인코딩을, NLG는 태스크별 모듈에서 단방향 인코딩을 사용한다.
  • 단어 인지(지식 마스킹된 언어 모델링), 구조 인지(문장 재배열, 문장 간 거리), 지식 인지(UKTP: 보편 지식-텍스트 예측) 및 문서 수준 언어 모델링 등 직렬의 사전학습 태스크들을 수행한다.
  • 연속 다-패러다임 학습을 도입하여 공유 인코더와 태스크별 디코더를 통해 다중 태스크 사전학습을 가능하게 하고, 제로샷, 파샷 또는 파인튜닝으로 다운스트림 태스크에 적용한다.
  • 데이터: 일반 텍스트와 Baidu 지식 그래프를 결합한 4TB의 중국어 말뭉치를 사용; 데이터 품질 향상을 위한 중복 제거, 필터링, 분할 단계.
  • 사전학습 설정: 공유 모듈은 48-레이어 보편 Transformer-XL(숨김 크기 4,096, 헤드 64) 및 태스크별 모듈은 12-레이어(숨김 768, 헤드 12); 총 10B 매개변수; PaddlePaddle를 사용하여 6144 NVIDIA V100 GPU에서 375B 토큰으로 학습; 메모리 및 시퀀스 길이 고려한 점진적 학습.

실험 결과

연구 질문

  • RQ1지식 강화된 사전학습 프레임워크가 대규모에서 언어 이해와 생성 과제 모두를 개선할 수 있는가?
  • RQ2자동회귀와 자동인코딩 목표를 지속적 다중 작업 학습과 융합하면 단일 패러다임 사전학습에 비해 다운스트림 과제를 위한 표현이 더 좋아지는가?
  • RQ3일반 텍스트와 함께 지식 그래프를 도입하는 것이 10B-parameter 모델의 다양한 NLP 벤치마크에서 성능에 어떤 영향을 미치는가?
  • RQ4공유된 보편 표현과 태스크별 모듈에서 시작할 때 점진적 개별 튜닝은 어떻게 작동하는가?

주요 결과

  • ERNIE 3.0은 54개 중국어 NLP 벤치마크에서 최첨단 결과를 달성하여 강력한 베이스라인을 크게 능가한다.
  • ERNIE 3.0의 영어 버전은 보고 시점의 SuperGLUE 벤치마크에서 1위를 차지했다(90.6% 대 89.8% 사람 동등성).
  • 단일 프레임워크가 NLU와 NLG 태스크 모두에 대해 제로샷, 파샷, 그리고 파인튜닝 패러다임을 가능하게 한다.
  • 대규모 지식 통합과 지속적 다-패러다임 사전학습의 결합은 이해 및 생성 태스크 모두에서 이전 모델에 비해 강력한 개선을 가져온다.
  • 점진적 학습과 지식 그래프를 포함한 대규모 고품질 코퍼스는 학습 안정성 및 성능 향상에 기여한다.
  • 모델은 감정 분석, 자연어 추론, 독해, 명명된 엔티티 인식, 생성 태스크 등 다양한 과제에서 강건한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.