Skip to main content
QUICK REVIEW

[论文解读] Improving Named Entity Recognition for Chinese Social Media with Word Segmentation Representation Learning

Nanyun Peng, Mark Dredze|arXiv (Cornell University)|Mar 2, 2016
Topic Modeling参考文献 30被引用 30
一句话总结

本文提出了一种联合学习框架,将中文社交媒体命名实体识别(NER)中的分词表示与BiLSTM-CRF模型相结合,通过共享隐藏表示显著提升了性能。该方法通过在分词和NER任务上联合训练,利用分词模型的共享嵌入和隐藏状态,在命名实体提及上实现了5.3%的绝对F1提升,在名词实体提及上实现了4.3%的绝对F1提升,优于先前的最先进结果。

ABSTRACT

Named entity recognition, and other information extraction tasks, frequently use linguistic features such as part of speech tags or chunkings. For languages where word boundaries are not readily identified in text, word segmentation is a key first step to generating features for an NER system. While using word boundary tags as features are helpful, the signals that aid in identifying these boundaries may provide richer information for an NER system. New state-of-the-art word segmentation systems use neural models to learn representations for predicting word boundaries. We show that these same representations, jointly trained with an NER system, yield significant improvements in NER for Chinese social media. In our experiments, jointly training NER and word segmentation with an LSTM-CRF model yields nearly 5% absolute improvement over previously published results.

研究动机与目标

  • 提升中文社交媒体文本中的命名实体识别(NER)性能,因为非正式语言和缺乏稳健的语言特征导致其性能落后于正式文本。
  • 探究从最先进的中文分词模型中学习到的表示是否能超越标准特征,提升NER性能。
  • 通过联合训练NER与分词任务,利用共享表示而非将分词视为预处理特征,探索多任务学习。
  • 评估不同表示类型(字符嵌入、分词特征、联合训练的LSTM隐藏状态)对NER性能的影响。
  • 在修正后的数据集上提供更新、可靠的基准结果,以支持未来比较。

提出的方法

  • 该模型采用BiLSTM-CRF架构,联合进行NER与分词任务,任务间共享字符级嵌入和LSTM隐藏表示。
  • 分词表示通过在SIGHAN 2005 PKU数据集上预训练的LSTM模型学习得到,随后集成到NER模型中。
  • 联合训练框架使NER模型能够受益于分词过程中学习到的丰富上下文感知表示,而非依赖静态分词输出作为特征。
  • 系统采用端到端训练,共享编码器(BiLSTM)和分别用于NER与分词的CRF解码层,实现参数共享与联合优化。
  • 超参数在开发数据上进行调优,并应用于测试集,结果基于更新后的、修正的Weibo NER数据集报告。
  • 该方法比较了多种变体:CRF基线、基于特征的分词、字符嵌入,以及嵌入与隐藏状态的联合训练。

实验结果

研究问题

  • RQ1从最先进的分词模型中学习到的表示是否能提升中文社交媒体上的NER性能?
  • RQ2与将分词作为预处理特征相比,使用共享表示联合训练NER与分词是否能获得更好的结果?
  • RQ3与仅使用字符嵌入相比,分词任务中LSTM隐藏状态的整合对NER性能的贡献如何?
  • RQ4领域差异(分词使用新闻数据,NER使用社交媒体数据)在多大程度上影响性能?联合学习能否缓解这一问题?
  • RQ5联合训练与预训练分词表示对整体性能提升的相对贡献分别是什么?

主要发现

  • 通过共享BiLSTM隐藏表示,联合训练NER与分词任务,在名词实体提及上的F1得分相比先前最先进方法实现了5.3%的绝对提升。
  • 该模型在命名实体提及上实现了4.3%的绝对F1提升,优于此前发表的最佳结果。
  • 联合训练字符嵌入与LSTM隐藏状态的模型表现最佳,名词实体提及的F1得分为62.97%,命名实体提及的F1得分为55.28%。
  • 先预训练分词模型,再在NER模型中微调其表示,实现了2%的F1提升,表明总提升中有一半来自分词表示本身。
  • 该模型优于He和Sun (2017a) 与He和Sun (2017b),证明了在修正数据集上联合学习方法的有效性。
  • 尽管存在领域差异(分词使用新闻数据,NER使用社交媒体数据),联合模型仍表现出色,表明共享表示有助于弥合领域差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。