[論文レビュー] Towards Lingua Franca Named Entity Recognition with BERT
本稿では、複数言語のデータを共同で学習させたマルチリンガル BERT を用いた名前付きエンティティ抽出(NER)モデルを提案する。このモデルは、CoNLL オランダール語およびスペイン語、OntoNotes アラビア語および中国語のデータセットにおいて、最先端の性能を達成した。共同学習により、未学習の言語に対するゼロショット推論性能が向上し、単言語ベースライン比で最大 17.8 F1 ポints の向上を達成した。また、言語間で一貫した推論コストを維持する単一のモデルを採用した。
Information extraction is an important task in NLP, enabling the automatic extraction of data for relational database filling. Historically, research and data was produced for English text, followed in subsequent years by datasets in Arabic, Chinese (ACE/OntoNotes), Dutch, Spanish, German (CoNLL evaluations), and many others. The natural tendency has been to treat each language as a different dataset and build optimized models for each. In this paper we investigate a single Named Entity Recognition model, based on a multilingual BERT, that is trained jointly on many languages simultaneously, and is able to decode these languages with better accuracy than models trained only on one language. To improve the initial model, we study the use of regularization strategies such as multitask learning and partial gradient updates. In addition to being a single model that can tackle multiple languages (including code switch), the model could be used to make zero-shot predictions on a new language, even ones for which training data is not available, out of the box. The results show that this model not only performs competitively with monolingual models, but it also achieves state-of-the-art results on the CoNLL02 Dutch and Spanish datasets, OntoNotes Arabic and Chinese datasets. Moreover, it performs reasonably well on unseen languages, achieving state-of-the-art for zero-shot on three CoNLL languages.
研究の動機と目的
- 単一のマルチリンガル NER モデルが、複数言語を共同で学習させることで単言語モデルを上回る性能を達成できるかどうかを調査すること。
- マルチタスク学習や部分的勾配更新といった正則化技術が、マルチリンガル NER の性能向上にどの程度効果をもたらすかを評価すること。
- 一部の言語で微調整した単一のモデルを用いて、未学習の言語におけるゼロショット NER を可能にすること。
- 複数言語にわたる統一されたアーキテクチャを用いることで、モデルのデプロイと保守を簡素化すること。
- クローズド予測や言語識別といった補助タスクを用いて、汎化性能およびゼロショット転移性能を向上させること。
提案手法
- 英語、ドイツ語、スペイン語、オランダ語の CoNLL データセットから得た統合 NER アノテーションを用いて、マルチリンガル BERT ベースモデルを微調整する。
- 過学習を抑えるため、微調整中に BERT レイヤーの数を変更して凍結する部分的勾配更新を適用する。
- 訓練中に間接的な正則化を提供するため、補助タスク(クローズド予測、言語識別(LI)、予測クローズド(PC))を導入する。
- クローズドタスクはメモリ消費量が高いため、長さ 64 の重複するチャンクに長文を分割して、学習データを保持する。
- クローズドタスクのマスキング確率は 0.15 とし、元の BERT パapear と同一に保つ。
- 5つの異なるランダムシードで平均化した開発セットでの F1 スコアが最大となるモデルを、各言語ごとに選定する。
実験結果
リサーチクエスチョン
- RQ1複数言語を共同で学習させた単一のマルチリンガル NER モデルは、単言語モデルを上回る性能を達成できるか?
- RQ2クローズド予測や言語識別といった補助タスクを組み込むことで、ゼロショット NER の性能が向上するか?
- RQ3英語で微調整したモデルが、ドイツ語、スペイン語、オランダ語といった未学習の言語に対してどの程度一般化できるか?
- RQ4部分的勾配更新(BERT レイヤーの凍結)は、異なる言語間でモデル性能にどのような影響を与えるか?
- RQ5同じモデルアーキテクチャが、異なる script や言語階層を有する多様な言語においても最先端の結果を達成できるか?
主な発見
- マルチリンガルモデルは、CoNLL オランダール語(78.61)およびスペイン語(73.62)で最先端の F1 スコアを達成し、単言語ベースラインを上回った。
- OntoNotes では、アラビア語および中国語 NER においても最先端の結果を達成し、言語間一般化の有効性を示した。
- 英語のみで微調整したモデルは、ドイツ語(77.05)、オランダ語(79.28)、スペイン語(73.34)に対してゼロショット F1 スコアを達成し、ベースラインのゼロショットモデル比で最大 17.8 F1 ポイントの向上を示した。
- 微調整時に 3 レイヤーを凍結すると、英語で微調整したモデルがゼロショット性能で最良の結果を示し、未学習言語で 2.4~17.8 F1 ポイントの向上を達成した。
- LI および PC の補助タスクの導入により、ドイツ語およびオランダ語の性能が向上した。CL+LI はドイツ語、LI はオランダ語でそれぞれ有益であった。
- モデルは全言語で一貫した推論コスト(メモリ/CPU/GPU)を維持しており、デプロイおよびライフサイクル管理を簡素化した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。