Skip to main content
QUICK REVIEW

[論文レビュー] Using LSTM and GRU With a New Dataset for Named Entity Recognition in the Arabic Language

Алаа Шакер, Alaa Aldarf|arXiv (Cornell University)|Apr 6, 2023
Topic Modeling被引用数 9
ひとこと要約

本論文は、BIOESでタグ付けされた新規作成のアラビア語データセット上で訓練されたLSTMおよびGRUベースのNERモデルを提案し、入れ子のエンティティを扱い、約80%の性能を達成する。

ABSTRACT

Named entity recognition (NER) is a natural language processing task (NLP), which aims to identify named entities and classify them like person, location, organization, etc. In the Arabic language, we can find a considerable size of unstructured data, and it needs to different preprocessing tool than languages like (English, Russian, German...). From this point, we can note the importance of building a new structured dataset to solve the lack of structured data. In this work, we use the BIOES format to tag the word, which allows us to handle the nested name entity that consists of more than one sentence and define the start and the end of the name. The dataset consists of more than thirty-six thousand records. In addition, this work proposes long short term memory (LSTM) units and Gated Recurrent Units (GRU) for building the named entity recognition model in the Arabic language. The models give an approximately good result (80%) because LSTM and GRU models can find the relationships between the words of the sentence. Also, use a new library from Google, which is Trax and platform Colab

研究の動機と目的

  • アラビア語テキストに特化した構造化されたアラビア語NERデータと前処理の必要性を動機づける。
  • 文をまたぐ入れ子のエンティティを扱うためにBIOESタグ付け付きの新しいアラビア語NERデータセットを作成する。
  • 新しいデータセットに対してシーケンスラベリングのためのLSTMおよびGRUアーキテクチャを評価する。
  • モデル開発と実験のためにGoogleのTraxライブラリとColabを使用することの有用性を示す。

提案手法

  • 文を跨ぐ開始/終了/単語単位/入れ子エンティティを捉えるBIOESタグ付け付きの新しいアラビア語NERデータセットを構築する。
  • 人名・場所・組織などのカテゴリにエンティティをラベル付けし、BIOES形式を用いて入れ子の名前の取り扱いを可能にする。
  • LSTMおよびGRUベースのシーケンスラベリングモデルを実装してデータセットでNERを実行する。
  • TraxライブラリとColabプラットフォームを活用したモデルのトレーニングと評価。
  • 文中の語間の関係を捉えられることを示すベースライン性能ベンチマークを提供する。

実験結果

リサーチクエスチョン

  • RQ1BIOESタグ付けデータセットを用いてLSTMおよびGRUモデルはアラビア語NERを効果的に学習できるか?
  • RQ2新しいBIOESベースの注釈スキーマはアラビア語NERにおける入れ子エンティティの取り扱いを改善するか?
  • RQ3提案されたアラビア語NERデータセットにおけるLSTMおよびGRUモデルの概算性能(精度/F1)はどの程度か?

主な発見

  • データセットには3万6千件を超えるレコードが含まれる。
  • BIOESタグ付けは複数の文にまたがるネームエンティティの入れ子を扱うのに適している。
  • LSTMおよびGRUモデルはアラビア語NERタスクで約80%の性能を達成する。
  • TraxライブラリとColabプラットフォームの活用はモデル開発と実験を促進する。
  • これらのモデルは文中の語間の関係を識別してアラビア語NERを支援できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。