QUICK REVIEW

[논문 리뷰] NEZHA: Neural Contextualized Representation for Chinese Language Understanding

Victor Junqiu Wei, Xiaozhe Ren|arXiv (Cornell University)|2019. 08. 31.

Topic Modeling참고 문헌 18인용 수 86

한 줄 요약

NEZHA는 기능적 상대 위치 인코딩, 전체 단어 마스킹, 혼합 정밀도, 및 LAMB 옵티마이저를 사용하여 대규모 말뭉치에서 중국어 언어 모델을 사전 학습하며, 미세 조정 시 중국어 NLU 과제에서 강력한 결과를 달성합니다.

ABSTRACT

The pre-trained language models have achieved great successes in various natural language understanding (NLU) tasks due to its capacity to capture the deep contextualized information in text by pre-training on large-scale corpora. In this technical report, we present our practice of pre-training language models named NEZHA (NEural contextualiZed representation for CHinese lAnguage understanding) on Chinese corpora and finetuning for the Chinese NLU tasks. The current version of NEZHA is based on BERT with a collection of proven improvements, which include Functional Relative Positional Encoding as an effective positional encoding scheme, Whole Word Masking strategy, Mixed Precision Training and the LAMB Optimizer in training the models. The experimental results show that NEZHA achieves the state-of-the-art performances when finetuned on several representative Chinese tasks, including named entity recognition (People's Daily NER), sentence matching (LCQMC), Chinese sentiment classification (ChnSenti) and natural language inference (XNLI).

연구 동기 및 목표

BERT를 넘어서 중국어 언어 모델의 효과적인 사전 학습 전략을 연구한다.
다운스트림 task에서 위치 인코딩, 마스킹, 데이터 소스 및 시퀀스 길이를 평가한다.
미세 조정을 통해 여러 중국어 NLU 벤치마크에서 최첨단 성능을 보여준다.

제안 방법

핵심 위치 방법으로 기능적 상대 위치 인코딩(FRPE)을 사용하는 BERT 유사 Transformer 인코더를 채택한다.
사전 학습 신호를 개선하기 위해 중국어 어절 수준 마스킹에 Whole Word Masking (WWM)을 사용한다.
학습 속도를 높이고 메모리 사용량을 줄이기 위해 혼합 정밀도 학습을 적용한다.
대규모 배치 학습과 안정적인 수렴을 가능하게 하려 LAMB 옵티마이저를 활용한다.
대형 중국어 말뭉치(Wikipedia, Baike, News)에서 NEZHA 모델을 처음부터 학습시키고, 다운스트림 작업에서 BERT 및 ERNIE 기반 모델과 비교한다.

실험 결과

연구 질문

RQ1기능적 상대 위치 인코딩(FRPE)이 중국어 사전 학습 모델에서 절대 인코딩이나 다른 상대 인코딩에 비해 일관된 이점을 제공하는가?
RQ2표준 마스킹과 비교했을 때 중국어 사전 학습 모델에 대한 Whole Word Masking의 영향은 무엇인가?
RQ3훈련 데이터 소스와 시퀀스 길이가 사전 학습의 효과와 다운스트림 성능에 어떠한 영향을 미치는가?
RQ4미세 조정 후 일반적인 중국어 NLU 작업에서 NEZHA가 최첨단 결과를 달성할 수 있는가?
RQ5대형 규모의 사전 학습에서 혼합 정밀도 학습과 LAMB 최적화의 실질적 이점은 무엇인가?

주요 결과

FRPE는 PAPE 및 PRPE에 비해 여러 작업에서 일관되게 성능을 향상시키며, 특히 CMRC와 같은 긴 문맥 작업에 도움이 된다.
WWM은 여러 중국어 NLU 벤치마크에서 표준 마스킹에 비해 측정 가능한 이점을 제공한다.
더 긴 학습 시퀀스와 다양한 데이터 소스(Wikipedia, Baike, News)가 더 나은 다운스트림 결과에 기여한다.
NEZHA-base 및 NEZHA-large 변형은 미세 조정 시 CMRC, XNLI, LCQMC, PD-NER, ChnSenti 등과 같은 과제에서 최첨단 또는 강력한 결과를 달성한다.
고찰 실험에서 FRPE는 유의한 이점을 보이며, WWM, 더 긴 시퀀스, 혼합 정밀도와 LAMB의 조합은 유리한 성능과 학습 효율을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.