Skip to main content
QUICK REVIEW

[논문 리뷰] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

Yu Sun, Shuohuan Wang|arXiv (Cornell University)|2019. 07. 29.
Topic Modeling참고 문헌 30인용 수 74
한 줄 요약

ERNIE 2.0은 지속적 사전 학습을 확장하여 어휘적, 구문적, 의미적 지식을 점진적으로 학습하고, GLUE 영어 과제 및 중국어 데이터셋에서 BERT와 XLNet보다 향상된 성능을 달성합니다.

ABSTRACT

Recently, pre-trained models have achieved state-of-the-art results in various language understanding tasks, which indicates that pre-training on large-scale corpora may play a crucial role in natural language processing. Current pre-training procedures usually focus on training the model with several simple tasks to grasp the co-occurrence of words or sentences. However, besides co-occurring, there exists other valuable lexical, syntactic and semantic information in training corpora, such as named entity, semantic closeness and discourse relations. In order to extract to the fullest extent, the lexical, syntactic and semantic information from training corpora, we propose a continual pre-training framework named ERNIE 2.0 which builds and learns incrementally pre-training tasks through constant multi-task learning. Experimental results demonstrate that ERNIE 2.0 outperforms BERT and XLNet on 16 tasks including English tasks on GLUE benchmarks and several common tasks in Chinese. The source codes and pre-trained models have been released at https://github.com/PaddlePaddle/ERNIE.

연구 동기 및 목표

  • 단순한 동시출현을 넘어서는 필요성을 제시하고, 코퍼스의 어휘적·구문적·의미적 정보를 활용합니다.
  • 지속적 다중 작업 사전 학습 프레임워크(ERNIE 2.0)를 제안하여 다양한 사전 학습 작업을 점진적으로 구성하고 학습합니다.
  • 영어 GLUE 벤치마크 및 다양한 중국어 NLP 작업에서 BERT와 XLNet보다 개선된 성능을 보임을 입증합니다.

제안 방법

  • 대규모 코퍼스로부터의 자기지도 또는 약지도 신호를 활용하여 단어 인식, 구조 인식, 의미 인식 사전 학습 작업을 구성합니다.
  • 작업 임베딩이 있는 공유 Transformer 인코더를 사용하여 작업 간 지식 전이를 가능하게 합니다.
  • 새로운 작업으로 모델을 업데이트하면서 이미 학습한 지식을 보존하는 지속적 다중 작업 학습을 구현하고, 효율성과 망각 사이의 균형을 맞추기 위해 작업당 N번의 학습 반복을 사용합니다.
  • Transformer 프레임워크 내에서 [CLS] 토큰과 [SEP] 구분자를 사용하고, 작업 임베딩으로 작업을 구분합니다.
  • QA, NLI, 의미적 유사도 등의 다운스트림 작업에서 사전 학습된 ERNIE 2.0 모델을 미세 조정합니다.

실험 결과

연구 질문

  • RQ1어휘적·구문적·의미적 신호를 활용한 지속적 다중 작업 사전 학습이 단일 작업 사전 학습보다 더 나은 언어 표현을 생성할 수 있는가?
  • RQ2과거에 학습한 지식을 잃지 않으면서도 지속적으로 다중 사전 학습 작업을 효율적으로 학습하려면 어떻게 해야 하는가?
  • RQ3ERNIE 2.0 표현이 표준 영어 벤치마크(GLUE)와 중국어 NLP 작업에서 BERT와 XLNet보다 우수한 성능을 달성하는가?

주요 결과

  • ERNIE 2.0은 영어 GLUE 벤치마크와 여러 중국어 작업을 포함한 16개 과제에서 BERT 및 XLNet보다 우수한 성능을 보였습니다.
  • 영어 GLUE 결과에서 ERNIE 2.0 LARGE은 대다수 과제에서 BERT LARGE 및 XLNet LARGE를 능가하였고, GLUE 테스트 점수 83.6점과 이전 최첨단 BERT LARGE 대비 3.1% 향상을 달성했습니다.
  • 중국어 과제에서 ERNIE 2.0 LARGE은 9개 과제에서 최고 성능을 보였고, ERNIE 1.0 BASE가 이미 일부 과제에서 BERT를 능가하였으며, ERNIE 2.0이 결과를 더욱 향상시켰습니다.
  • 지속적 다중 작업 학습 전략은 처음부터 다중 작업 학습 및 전통적인 지속적 학습보다 성능이 우수하며, 효과적인 지식 유지 및 작업 적응을 입증합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.