QUICK REVIEW

[論文レビュー] A Survey on Recent Advances in Named Entity Recognition from Deep Learning models

Vikas Yadav, Steven Bethard|arXiv (Cornell University)|Oct 25, 2019

Topic Modeling参考文献 69被引用数 468

ひとこと要約

本調査はNERの深層ニューラルネットワークアーキテクチャを分析し、特徴工学ベースのアプローチと比較し、多言語・マルチドメインNERにおけるニューラルモデルまでの進展と主要な洞察を強調する。

ABSTRACT

Named Entity Recognition (NER) is a key component in NLP systems for question answering, information retrieval, relation extraction, etc. NER systems have been studied and developed widely for decades, but accurate systems using deep neural networks (NN) have only been introduced in the last few years. We present a comprehensive survey of deep neural network architectures for NER, and contrast them with previous approaches to NER based on feature engineering and other supervised or semi-supervised learning algorithms. Our results highlight the improvements achieved by neural networks, and show how incorporating some of the lessons learned from past work on feature-based NER systems can yield further improvements.

研究の動機と目的

特徴ベースのNERシステムからニューラルNERシステムへの進化を総合し、ニューラルアーキテクチャによる性能向上を定量化する。
複数の言語・ドメインにわたって、ニューラル手法を知識ベースおよび特徴エンジニアリング手法と対比する。
NER性能を向上させるアーキテクチャパターンと教訓を特定する。
ニューラルNERシステムを再現・拡張するためのガイダンスとリソースを提供する。

提案手法

154件の記事をレビューし、ニューラルアーキテクチャと特徴エンジニアリングのベースラインを対象として83件を選定する。
NERシステムを知識ベース、ブートストラップ、特徴エンジニアリング、ニューラルネットワークのアプローチに分類する。
データセット、評価指標、共通課題を要約し性能を文脈化する。
NERの語レベル、文字レベル、ハイブリッド表現を比較する。
ニューラルNERにおける語彙表、名寄せ辞書、接辞の役割を強調する。
CoNLL、DrugNER、および生物医療データセットからの言語間・ドメイン間の性能動向を報告する。

実験結果

リサーチクエスチョン

RQ1言語・ドメインを超えて、ニューラルネットワークNERシステムは従来の特徴エンジニアリングモデルよりどの程度の性能向上を達成するか？
RQ2語レベル、文字レベル、ハイブリッド表現はNERの精度においてどのように比較されるか？
RQ3語彙表・名寄せ辞書・接辞特徴をニューラルNERアーキテクチャに組み込む影響は？
RQ4多言語（CoNLL）および生物医療/薬物関連データセット（DrugNER）でのニューラルNERモデルの性能は？
RQ5過去の特徴ベースNERからどんな教訓が現代のニューラル手法をさらに改善できるか？

主な発見

Neural-network NER systems generally outperform feature-engineered models on the evaluated datasets.
Word+character hybrid models often outperform purely word-based or purely character-based models.
In DrugNER, word+character models achieve notably higher F1 scores than feature-engineered baselines.
An affix-enhanced character+word model sets new state-of-the-art results for Spanish, Dutch, and German, and closely approaches English performance.
Incorporating past feature-engineering insights (like affixes) can yield meaningful gains in neural NER systems.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。