[論文レビュー] ERNIE: Enhanced Representation through Knowledge Integration
ERNIE は、エンティティ、フレーズ、基本レベルの知識マスキングを導入して事前学習言語表現を豊かにし、BERT と比較して五つの中国語 NLP タスクで最先端の成果を達成します。
We present a novel language representation model enhanced by knowledge called ERNIE (Enhanced Representation through kNowledge IntEgration). Inspired by the masking strategy of BERT, ERNIE is designed to learn language representation enhanced by knowledge masking strategies, which includes entity-level masking and phrase-level masking. Entity-level strategy masks entities which are usually composed of multiple words.Phrase-level strategy masks the whole phrase which is composed of several words standing together as a conceptual unit.Experimental results show that ERNIE outperforms other baseline methods, achieving new state-of-the-art results on five Chinese natural language processing tasks including natural language inference, semantic similarity, named entity recognition, sentiment analysis and question answering. We also demonstrate that ERNIE has more powerful knowledge inference capacity on a cloze test.
研究の動機と目的
- Prior knowledge を事前学習へ統合することで言語表現の改善を動機付ける。
- masking ベースの事前学習パラダイムを開発し、エンティティレベルおよびフレーズレベル情報を捉える。
- heterogeneous data に基づく事前学習を通じて中国語 NLP タスクでの向上を実証する。
提案手法
- BERT と同様の Transformer エンコーダを用い、基本表現学習を行う。
- 基本レベル、フレーズレベル、エンティティレベルの三段階知識マスキングを適用する。
- DLM (Dialogue Language Model) を導入し、問答対話の構造をモデル化する。
- Wikepedia、Baike、Baidu News、Baidu Tieba などの異種中国語データで事前学習し、対話信号を組み込む。
- 知識統合の利点を評価するために五つの中国語 NLP タスクで評価する。
実験結果
リサーチクエスチョン
- RQ1フレーズレベルおよびエンティティレベルの知識をマスキングすることで、単語レベルのマスキングを超える言語表現の改善が得られるか。
- RQ2DLM タスクが下流パフォーマンスに与える寄与はどの程度か。
- RQ3異種中国語データで事前学習した場合、ER NIE は BERT と比較してどうなるか。
- RQ4知識を活用した事前学習は複数の中国語 NLP タスクへ効果的に移転できるか。
主な発見
| Task | Metric | Bert Dev | Bert Test | ERNIE Dev | ERNIE Test | Gain Dev | Gain Test |
|---|---|---|---|---|---|---|---|
| XNLI | accuracy | 78.1 | 77.2 | 79.9 (+1.8) | 78.4 (+1.2) | ||
| LCQMC | accuracy | 88.8 | 87.0 | 89.7 (+0.9) | 87.4 (+0.4) | ||
| MSRA-NER | F1 | 94.0 | 92.6 | 95.0 (+1.0) | 93.8 (+1.2) | ||
| ChnSentiCorp | accuracy | 94.6 | 94.3 | 95.2 (+0.6) | 95.4 (+1.1) | ||
| nlpcc-dbqa | MRR | 94.7 | 94.6 | 95.0 (+0.3) | 95.1 (+0.5) | ||
| nlpcc-dbqa | F1 | 80.7 | 80.8 | 82.3 (+1.6) | 82.7 (+1.9) |
- ERNIE は研究対象の五つの中国語 NLP タスクすべてで BERT を上回る。
- XNLI、MSRA-NER、ChnSentiCorp、NLPCC-DBQA は BERT に対して絶対精度が1%以上の改善を示す。
- フレーズレベルおよびエンティティレベルのマスキングは基本マスキングを超える追加の利得を提供する。
- DLM は XNLI の開発/テスト精度を 0.7–1.0% 向上させる。
- 知識マスキング戦略と異種前処理はより強力な言語表現を生む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。