QUICK REVIEW

[論文レビュー] End-to-end Named Entity Recognition and Relation Extraction using Pre-trained Language Models

John Giorgi, Xindi Wang|arXiv (Cornell University)|Dec 20, 2019

Topic Modeling参考文献 32被引用数 29

ひとこと要約

この論文は、外部のNLPツールや手作業で作成したテンプレートに依存せずに、事前学習されたBERT言語モデルを活用する完全なエンド・ツー・エンドのニューラルモデルを提案する。このモデルは、3つのドメインで5つのデータセットにおいて最先端の性能を達成しており、微調整された事前学習パラメータと自己注意機構を用いることで、トレーニングが高速化されている。

ABSTRACT

Named entity recognition (NER) and relation extraction (RE) are two important tasks in information extraction and retrieval (IE \& IR). Recent work has demonstrated that it is beneficial to learn these tasks jointly, which avoids the propagation of error inherent in pipeline-based systems and improves performance. However, state-of-the-art joint models typically rely on external natural language processing (NLP) tools, such as dependency parsers, limiting their usefulness to domains (e.g. news) where those tools perform well. The few neural, end-to-end models that have been proposed are trained almost completely from scratch. In this paper, we propose a neural, end-to-end model for jointly extracting entities and their relations which does not rely on external NLP tools and which integrates a large, pre-trained language model. Because the bulk of our model's parameters are pre-trained and we eschew recurrence for self-attention, our model is fast to train. On 5 datasets across 3 domains, our model matches or exceeds state-of-the-art performance, sometimes by a large margin.

研究の動機と目的

パイプラインベースのNERおよびREシステムにおける誤差伝搬と情報共有の制限を解決する。
特にバイオメディスンや臨床テキストなどの低リソースドメインにおいて、従来の共同モデルが依存する外部NLPツール（例：依存解析器）の制限を克服する。
学習を再び開始するのを避けるために、事前学習された言語モデルを活用する真正のエンド・ツー・エンドシステムを構築し、小規模データセットでもトレーニング時間を短縮し、性能を向上させる。
再帰的ネットワークを自己注意機構に置き換えることで、高速かつ効率的なトレーニングを実現し、微調整された事前学習BERTパラメータを活用する。
多様なドメインで最先端の性能を達成しながら、他の事前学習モデルやドメインへの拡張性・モularityを維持する。

提案手法

主エンコーダーとして事前学習されたBERTモデルを統合し、NERおよびREの両タスクにエンド・ツー・エンドで微調整可能なパラメータを適用する。
NERにはシーケンス・ツー・シーケンスヘッド、REには関係分類ヘッドを用い、両者ともBERTの文脈依存トークン表現に基づいて構築する。
依存解析や手作業テンプレートに依存せずに、完全にエンド・ツー・エンドの方法でモデルをトレーニングする。
再帰的ネットワークの代わりに自己注意機構を採用することで、並列処理が可能になり、1つのGPUで1データセットあたり1時間未満で収束する。
BERTのモジュラ設計を活用し、ドメイン特化の事前学習モデル（例：BioBERT）や代替モデル（例：XLNet）への容易な適応が可能になる。
BertVizを用いて注意重みを可視化し、隣接語に注目する、自己注意、文の境界に注目するなどの注目パターンを分析し、モデルの挙動を解釈する。

実験結果

リサーチクエスチョン

RQ1外部NLPツールや手作業テンプレートに依存せず、事前学習されたトランスフォーマー基盤モデルが、最先端の共同NERおよびRE性能を達成できるか？
RQ2BERTのような事前学習言語モデルを微調整することで、特に低リソースのバイオメディスンおよび臨床データセットにおいて、学習から開始する場合と比較して収束が速くなり、性能が向上するか？
RQ3微調整されたBERTモデルにおける注目パターンが、NERおよびREタスクに必要な文法的・意味的関係をどのように反映しているか？
RQ4モデルの性能がどの程度ドメインを越えて一般化できるか、特にネストされたエンティティや文間関係を扱う際にどうなるか？
RQ5多言語事前学習BERT重みを用いることで、モデルのアーキテクチャを多言語設定に拡張できるか？

主な発見

3つのドメインで5つのデータセットにおいて、最先端の性能を達成しており、ADEデータセットでは6.53%の向上を示したが、これは文内の注釈パターンが著しく高いことによるインflatedな改善である可能性がある。
REモジュールで真のエンティティを用いる場合、ADEデータセットの性能は98%に近づき、コーパスに頻出する2エンティティ1関係のパターンをモデルが活用していることが示唆される。
1つのGPUで1データセットあたり1時間未満で収束するため、自己注意機構と事前学習パラメータの初期化により、RNNベースのモデルと比較して顕著なトレーニング速度の優位性を示している。
注目可視化により、隣接語に注目する、自己注意、文の境界に注目するといった重要な注目パターンが維持されていることが確認され、微調整後も文法的・構造的ヒントが保持されていることが示された。
アブレーションスタディの結果、特に事前学習BERTエンコーダーとエンド・ツー・エンドのトレーニング設定が最適性能を達成するために不可欠であることが分かった。
モデルのモジュラ設計により、ドメイン特化の事前学習モデル（例：BioBERT）や代替アーキテクチャ（例：XLNet）への容易な適応が可能となり、汎用性と再利用性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。