[論文レビュー] NEZHA: Neural Contextualized Representation for Chinese Language Understanding
NEZHA は、機能的相対位置エンコーディング、全語彙マスキング、混合精度、LAMB オプティマを使用して大規模コーパス上で中国語言語モデルを事前学習し、微調整時に中国語 NLU タスクで高い成果を達成します。
The pre-trained language models have achieved great successes in various natural language understanding (NLU) tasks due to its capacity to capture the deep contextualized information in text by pre-training on large-scale corpora. In this technical report, we present our practice of pre-training language models named NEZHA (NEural contextualiZed representation for CHinese lAnguage understanding) on Chinese corpora and finetuning for the Chinese NLU tasks. The current version of NEZHA is based on BERT with a collection of proven improvements, which include Functional Relative Positional Encoding as an effective positional encoding scheme, Whole Word Masking strategy, Mixed Precision Training and the LAMB Optimizer in training the models. The experimental results show that NEZHA achieves the state-of-the-art performances when finetuned on several representative Chinese tasks, including named entity recognition (People's Daily NER), sentence matching (LCQMC), Chinese sentiment classification (ChnSenti) and natural language inference (XNLI).
研究の動機と目的
- BERT を超える中国語言語モデルの効果的な事前学習戦略を研究する。
- 下流タスクに対して、位置エンコーディング、マスキング、データソース、シーケンス長を評価する。
- ファインチューニングを通じて複数の中国語 NLU ベンチマークで最先端の性能を示す。
提案手法
- BERT に類似した Transformer エンコーダをコアの位置手法として機能的相対位置エンコーディング(FRPE)を採用する。
- 全語彙マスキング(WWM)を中国語の語彙レベルのマスキングに使用して事前学習信号を改善する。
- 混合精度トレーニングを適用してトレーニングを加速しメモリ使用量を削減する。
- LAMB オプティマを利用して大規模バッチ学習と安定した収束を可能にする。
- NEZHA モデルを大規模な中国語コーパス(Wikipedia、Baike、News)からゼロから学習し、下流タスクで BERT および ERNIE ベースのモデルと比較する。
実験結果
リサーチクエスチョン
- RQ1機能的相対位置エンコーディング(FRPE)は、中国語の事前学習モデルに対して絶対位置エンコーディングや他の相対エンコーディングよりも一貫した利得を提供するか。
- RQ2全語彙マスキングは、中国語の事前学習モデルに標準的なマスキングと比較して影響があるか。
- RQ3トレーニングデータソースとシーケンス長は、事前学習の効果と下流パフォーマンスにどのように影響するか。
- RQ4NEZHA はファインチューニング後、典型的な中国語 NLU タスクで最先端の結果を達成できるか。
- RQ5混合精度トレーニングと LAMB 最適化は大規模な事前学習にとって実用的な利点を提供するか。
主な発見
- FRPE は PAPE および PRPE よりも複数のタスクで一貫して性能を向上させ、特に CMRC のような長い文脈タスクを支援する。
- WWM は複数の中国語 NLU ベンチマークで標準マスキングより実測的な利得を提供する。
- より長いトレーニングシーケンスと多様なデータソース(Wikipedia、Baike、News)は下流の結果を改善に貢献する。
- NEZHA-base および NEZHA-large は CMRC、XNLI、LCQMC、PD-NER、ChnSenti などのタスクでファインチューニング時に最先端または高い性能を達成する。
- アブレーション実験では FRPE に顕著な利点が見られ、WWM、長いシーケンス、混合精度と LAMB の組み合わせは性能とトレーニング効率を有利にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。