Skip to main content
QUICK REVIEW

[论文解读] Named Entity Recognition with stack residual LSTM and trainable bias decoding

Quan Tran, Andrew MacKinlay|arXiv (Cornell University)|Jun 23, 2017
Topic Modeling参考文献 30被引用 36
一句话总结

该论文提出了一种带有可学习偏置解码的堆叠残差LSTM架构,以提升CoNLL-2003数据集上的命名实体识别(NER)性能。通过引入残差连接来缓解深度RNN中的退化问题,并采用可微分的偏置解码来优化F1值,该模型在英语和西班牙语上分别取得了91.69和86.00的SOTA F1分数,优于标准训练/验证/测试划分下的先前方法。

ABSTRACT

Recurrent Neural Network models are the state-of-the-art for Named Entity Recognition (NER). We present two innovations to improve the performance of these models. The first innovation is the introduction of residual connections between the Stacked Recurrent Neural Network model to address the degradation problem of deep neural networks. The second innovation is a bias decoding mechanism that allows the trained system to adapt to non-differentiable and externally computed objectives, such as the entity-based F-measure. Our work improves the state-of-the-art results for both Spanish and English languages on the standard train/development/test split of the CoNLL 2003 Shared Task NER dataset.

研究动机与目标

  • 通过在堆叠LSTM层之间引入残差连接,缓解深度RNN在NER任务中因深度导致的性能退化问题。
  • 通过引入可学习偏置解码机制,实现对非可微分指标(如基于实体的F1值)的优化,从而实现端到端训练。
  • 在不使用外部标注数据或领域特定特征的情况下,提升英语和西班牙语的NER性能。
  • 评估语言模型嵌入作为辅助特征在F1值优化背景下的有效性。

提出的方法

  • 在堆叠的LSTM层之间引入残差连接,以稳定训练过程并改善深度RNN架构中的梯度流动。
  • 在字符序列上使用双向RNN(biRNN)生成每个词的字符级嵌入表示。
  • 将词嵌入与字符级biRNN输出拼接,作为主RNN-CRF模型的输入特征。
  • 应用可学习偏置解码层,利用基于外部F1值评估的有限差分梯度更新,调整最终CRF输出的概率分布。
  • 使用CoNLL-2003评估脚本训练偏置参数,直接以F1分数为目标进行优化。
  • 引入前向和后向语言模型作为额外特征,将其嵌入表示输入模型,以增强上下文表征能力。

实验结果

研究问题

  • RQ1在堆叠RNN中引入残差连接是否能通过缓解深层网络中的退化问题,从而提升NER任务的性能?
  • RQ2可微分的偏置解码机制是否能有效优化NER中非可微分的F1值指标,而无需重新训练主模型?
  • RQ3当与偏置解码和残差连接结合使用时,语言模型嵌入对NER性能有何影响?
  • RQ4所提出的方法是否在跨语言场景下具有泛化能力,特别是在英语相比西班牙语的低资源设置下?
  • RQ5训练动态和梯度噪声对可学习偏置解码过程的收敛性和稳定性有何影响?

主要发现

  • 所提出的堆叠残差LSTM结合偏置解码方法在英语CoNLL-2003测试集上实现了91.69的新SOTA F1分数,超越了先前的SOTA结果。
  • 在西班牙语上,该模型取得了86.00的F1分数,显著优于Lample等人(2016)报告的先前SOTA结果85.75。
  • 增加前向和后向语言模型进一步提升了性能,使英语F1提升至91.69,而西班牙语F1略有下降,表明语言模型质量存在语言特异性影响。
  • 可学习偏置解码机制在两种语言中均一致地提升了性能,尽管增益相对较小,可能归因于梯度噪声。
  • 语言模型嵌入表现出相反影响:有助于英语性能,但降低了西班牙语性能,可能是因为英语语言模型的困惑度更低、质量更高。
  • 对偏置值的分析显示,未发现明显趋势支持精确率或召回率的偏向,表明该偏置机制并未像传统阈值调整那样简单地改变精确率-召回率权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。