[論文レビュー] Neural Architectures for Nested NER through Linearization
この論文では、ネストされたエンティティ構造を多ラベル BILOU スキームに線形化することで、ネストされた named entity recognition (NER) のための2つのニューラルアーキテクチャを提案する。1つ目のモデルは多ラベルを用いた標準的な LSTM-CRF であり、2つ目のモデルはハードアテンションを用いたシーケンス・ツー・シーケンスのアプローチとしてネストされた NER を定式化する。両モデルとも、ACE-2004、ACE-2005、GENIA、Czech CNEC の4つのネストされた NER コーパスにおいて、BERT や ELMo、Flair などの文脈的埋め込みを活用することで、先行する最先端手法を上回る性能を発揮する。
We propose two neural network architectures for nested named entity recognition (NER), a setting in which named entities may overlap and also be labeled with more than one label. We encode the nested labels using a linearized scheme. In our first proposed approach, the nested labels are modeled as multilabels corresponding to the Cartesian product of the nested labels in a standard LSTM-CRF architecture. In the second one, the nested NER is viewed as a sequence-to-sequence problem, in which the input sequence consists of the tokens and output sequence of the labels, using hard attention on the word whose label is being predicted. The proposed methods outperform the nested NER state of the art on four corpora: ACE-2004, ACE-2005, GENIA and Czech CNEC. We also enrich our architectures with the recently published contextual embeddings: ELMo, BERT and Flair, reaching further improvements for the four nested entity corpora. In addition, we report flat NER state-of-the-art results for CoNLL-2002 Dutch and Spanish and for CoNLL-2003 English.
研究の動機と目的
- 自然言語処理における重複およびネストされた名前付きエンティティの課題に対処する。標準的な NER モデルはラベルの競合により失敗するためである。
- 構文的またはハイパーグラフ構造を明示的に構築することなく、ネストされたエンティティ関係を暗黙的にモデル化するニューラルアーキテクチャを開発する。
- 複雑なエンティティ階層を線形化された強化された BILOU ラベル符号化によりエンコードすることで、ネストされた NER コーパスにおける性能を向上させる。
- 最近の文脈的単語埋め込み(BERT、ELMo、Flair)が、ネストされた NER タスクおよび平坦な NER タスクにおける性能向上に寄与するかを評価する。
提案手法
- ネストされたエンティティは、優先順位ルールに基づき、より早い開始時刻およびより長いエンティティが優先される強化された BILOU スキームで符号化される。
- 1つ目のモデルは、多ラベルをネストされたラベルのカルテジアン積として扱い、シーケンスラベリングに標準的な LSTM-CRF を適用する。
- 2つ目のモデルは、ネストされた NER をシーケンス・ツー・シーケンスのタスクとして定式化する。入力はトークン列であり、出力はラベル列であり、語の予測終了を示す特別な <eow> トークンが含まれる。
- seq2seq デコーダーではハードアテンションが用いられ、各エンティティ予測のための動的文脈モデリングが可能になる。
- 両モデルの入力特徴として、文脈的単語埋め込み(ELMo、BERT、Flair)が用いられ、トークン表現の豊かさが向上する。
- 両モデルは、厳密なスパンおよびクラスマッチングを用いて訓練および評価され、テスト結果は結合された訓練+開発セット上で報告される。
実験結果
リサーチクエスチョン
- RQ1標準的な LSTM-CRF の多ラベル拡張は、構造的モデリングを明示的に行わずにネストされた NER を効果的に処理できるか?
- RQ2ハードアテンションを用いたシーケンス・ツー・シーケンスの定式化により、複雑で高頻度にネストされたコーパスにおいて、より高い性能が得られるか?
- RQ3最近の文脈的埋め込み(BERT、ELMo、Flair)は、ネストされたおよび平坦な NER ベンチマークにおける性能向上に寄与するか?
- RQ4強化された BILOU 符号化スキームは、ニューラルシーケンスラベリングにおけるネストされたエンティティ構造を効果的に保持できるか?
- RQ5seq2seq アーキテクチャは、ACE-2004 や ACE-2005 のような高頻度に重複するネストされたコーパスにおいて、標準的なシーケンスラベリングよりも一般化性能に優れるか?
主な発見
- BERT+Flair 埋め込みを用いた seq2seq モデルは、ACE-2004 で 84.40、ACE-2005 で 84.33、GENIA で 78.31、Czech CNEC 1.0 で 86.88 の最先端 F1 スコアを達成した。
- BERT+Flair を用いた LSTM-CRF モデルは、ACE-2004 で 81.22 F1、CNEC 1.0 で 85.70 F1 を達成し、先行するニューラルおよび非ニューラル手法を上回った。
- ACE-2004 および ACE-2005 では、学習文の39%が重複するメンションを含むが、seq2seq モデルはすべての先行手法を顕著に上回った。
- 平坦な NER では、両モデルが最先端の結果を達成した:CoNLL-2003 英語で 93.07 F1、オランダ語で 92.69、スペイン語で 88.81、いずれも BERT+Flair を用いた場合。
- 文脈的埋め込みの追加は、すべてのコーパスで一貫して性能向上をもたらし、BERT+Flair が最も高い向上をもたらした。
- 強化された BILOU 符号化により、ネストされた構造の効果的な線形化が可能となり、標準的なニューラルアーキテクチャが複雑な階層的関係を暗黙的に学習できるようになった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。