Skip to main content
QUICK REVIEW

[论文解读] Using LSTM and GRU With a New Dataset for Named Entity Recognition in the Arabic Language

Алаа Шакер, Alaa Aldarf|arXiv (Cornell University)|Apr 6, 2023
Topic Modeling被引用 9
一句话总结

本文提出基于 LSTM 与 GRU 的命名实体识别(NER)模型,使用新创建的阿拉伯语数据集,标注为 BIOES,以处理嵌套实体,性能约为 80%

ABSTRACT

Named entity recognition (NER) is a natural language processing task (NLP), which aims to identify named entities and classify them like person, location, organization, etc. In the Arabic language, we can find a considerable size of unstructured data, and it needs to different preprocessing tool than languages like (English, Russian, German...). From this point, we can note the importance of building a new structured dataset to solve the lack of structured data. In this work, we use the BIOES format to tag the word, which allows us to handle the nested name entity that consists of more than one sentence and define the start and the end of the name. The dataset consists of more than thirty-six thousand records. In addition, this work proposes long short term memory (LSTM) units and Gated Recurrent Units (GRU) for building the named entity recognition model in the Arabic language. The models give an approximately good result (80%) because LSTM and GRU models can find the relationships between the words of the sentence. Also, use a new library from Google, which is Trax and platform Colab

研究动机与目标

  • 激发对结构化的阿拉伯语 NER 数据以及针对阿拉伯语文本的预处理需求。
  • 创建一个新的阿拉伯语 NER 数据集,使用 BIOES 标注以处理跨句子的嵌套实体。
  • 在新数据集上评估用于序列标注的 LSTM 和 GRU 架构。
  • 展示使用 Google's Trax 库和 Colab 进行模型开发与实验的实用性。

提出的方法

  • 构建一个新的阿拉伯语 NER 数据集,使用 BIOES 标注以捕捉跨句子的起始/结束、单-token 和嵌套实体。
  • 将实体标注为人名、地点、组织等类别,使用 BIOES 格式以实现对嵌套名称的处理。
  • 实现基于 LSTM 与 GRU 的序列标注模型以在该数据集上执行 NER。
  • 利用 Trax 库和 Colab 平台进行模型训练和评估。
  • 提供基线性能基准,表明模型能够捕捉句子中单词之间的关系。

实验结果

研究问题

  • RQ1LSTM 和 GRU 模型是否能够有效地使用 BIOES 标注数据集学习阿拉伯语 NER?
  • RQ2新的 BIOES 基标注方案是否提高了对阿拉伯语 NER 的嵌套实体处理?
  • RQ3在所提出的阿拉伯语 NER 数据集上,LSTM 和 GRU 模型的大致性能(就准确率/F1 来说)是多少?

主要发现

  • 该数据集包含超过三万六千条记录。
  • BIOES 标注使得跨越多句子的嵌套姓名实体的处理成为可能。
  • LSTM 和 GRU 模型在阿拉伯语 NER 任务上实现了大约 80% 的性能。
  • 使用 Trax 库和 Colab 平台促进了模型开发与实验。
  • 这些模型能够识别句子中单词之间的关系,以支持阿拉伯语的 NER。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。