Skip to main content
QUICK REVIEW

[论文解读] End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

Xuezhe Ma, Eduard Hovy|arXiv (Cornell University)|Mar 4, 2016
Topic Modeling参考文献 47被引用 211
一句话总结

提出一个端到端神经架构,结合字符级CNN、词级Bi-LSTMs和CRF解码器用于POS标注和NER,实现无需手工特征的最先进结果。

ABSTRACT

State-of-the-art sequence labeling systems traditionally require large amounts of task-specific knowledge in the form of hand-crafted features and data pre-processing. In this paper, we introduce a novel neutral network architecture that benefits from both word- and character-level representations automatically, by using combination of bidirectional LSTM, CNN and CRF. Our system is truly end-to-end, requiring no feature engineering or data pre-processing, thus making it applicable to a wide range of sequence labeling tasks. We evaluate our system on two data sets for two sequence labeling tasks --- Penn Treebank WSJ corpus for part-of-speech (POS) tagging and CoNLL 2003 corpus for named entity recognition (NER). We obtain state-of-the-art performance on both the two data --- 97.55\% accuracy for POS tagging and 91.21\% F1 for NER.

研究动机与目标

  • 在序列标注中减少任务特定特征工程的动机。
  • 开发一个端到端神经架构,整合字符级和词级表示。
  • 证明联合解码与CRF层在POS标注和NER上的有效性。
  • 在标准基准数据上进行评估(POS的PTB WSJ,NER的CoNLL-2003),并与先前的最先进结果进行比较。

提出的方法

  • 使用CNN提取字符级的词表示。
  • 将字符级表示与词嵌入拼接,作为Bi-directional LSTM的输入。
  • 在BLSTM之上叠加CRF层实现联合序列解码。
  • 端到端训练,不使用手工特征或除预训练词嵌入以外的数据预处理。
  • 应用dropout以实现正则化。

实验结果

研究问题

  • RQ1没有手工特征的端到端神经模型是否能够在POS标注和NER上达到最先进的性能?
  • RQ2将字符级CNN与BLSTM和CRF解码器整合是否比基线提高序列标注准确性?
  • RQ3模型在各种预训练词嵌入下的表现如何?
  • RQ4dropout和训练细节对模型性能有何影响?

主要发现

  • 在WSJ PTB测试集上实现了最先进的POS标注准确率(97.55%)。
  • 在CoNLL-2003测试集上实现了最先进的NER F1(91.21%)。
  • BLSTM-CNN优于BLSTM,表明字符级信息有益。
  • CRF层解码相对于独立的标记预测带来显著提升。
  • 端到端模型在不同的预训练嵌入下表现良好,GloVe 100D通常效果最佳。
  • Dropout在两种任务上显著提升性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。