QUICK REVIEW

[论文解读] End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

Xuezhe Ma, Eduard Hovy|arXiv (Cornell University)|Mar 4, 2016

Topic Modeling参考文献 47被引用 211

一句话总结

提出一个端到端神经架构，结合字符级CNN、词级Bi-LSTMs和CRF解码器用于POS标注和NER，实现无需手工特征的最先进结果。

ABSTRACT

State-of-the-art sequence labeling systems traditionally require large amounts of task-specific knowledge in the form of hand-crafted features and data pre-processing. In this paper, we introduce a novel neutral network architecture that benefits from both word- and character-level representations automatically, by using combination of bidirectional LSTM, CNN and CRF. Our system is truly end-to-end, requiring no feature engineering or data pre-processing, thus making it applicable to a wide range of sequence labeling tasks. We evaluate our system on two data sets for two sequence labeling tasks --- Penn Treebank WSJ corpus for part-of-speech (POS) tagging and CoNLL 2003 corpus for named entity recognition (NER). We obtain state-of-the-art performance on both the two data --- 97.55\% accuracy for POS tagging and 91.21\% F1 for NER.

研究动机与目标

在序列标注中减少任务特定特征工程的动机。
开发一个端到端神经架构，整合字符级和词级表示。
证明联合解码与CRF层在POS标注和NER上的有效性。
在标准基准数据上进行评估（POS的PTB WSJ，NER的CoNLL-2003），并与先前的最先进结果进行比较。

提出的方法

使用CNN提取字符级的词表示。
将字符级表示与词嵌入拼接，作为Bi-directional LSTM的输入。
在BLSTM之上叠加CRF层实现联合序列解码。
端到端训练，不使用手工特征或除预训练词嵌入以外的数据预处理。
应用dropout以实现正则化。

实验结果

研究问题

RQ1没有手工特征的端到端神经模型是否能够在POS标注和NER上达到最先进的性能？
RQ2将字符级CNN与BLSTM和CRF解码器整合是否比基线提高序列标注准确性？
RQ3模型在各种预训练词嵌入下的表现如何？
RQ4dropout和训练细节对模型性能有何影响？

主要发现

在WSJ PTB测试集上实现了最先进的POS标注准确率（97.55%）。
在CoNLL-2003测试集上实现了最先进的NER F1（91.21%）。
BLSTM-CNN优于BLSTM，表明字符级信息有益。
CRF层解码相对于独立的标记预测带来显著提升。
端到端模型在不同的预训练嵌入下表现良好，GloVe 100D通常效果最佳。
Dropout在两种任务上显著提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。