Skip to main content
QUICK REVIEW

[论文解读] Empower Sequence Labeling with Task-Aware Neural Language Model

Liyuan Liu, Jingbo Shang|arXiv (Cornell University)|Sep 13, 2017
Natural Language Processing Techniques被引用 151
一句话总结

LM-LSTM-CRF 将字符级语言模型与词级 BiLSTM-CRF 集成,使用高速层来调解任务特定知识,在无需额外注释的情况下在NER、POS和分块任务上达到 state-of-the-art 的结果。

ABSTRACT

Linguistic sequence labeling is a general modeling approach that encompasses a variety of problems, such as part-of-speech tagging and named entity recognition. Recent advances in neural networks (NNs) make it possible to build reliable models without handcrafted features. However, in many cases, it is hard to obtain sufficient annotations to train these models. In this study, we develop a novel neural framework to extract abundant knowledge hidden in raw texts to empower the sequence labeling task. Besides word-level knowledge contained in pre-trained word embeddings, character-aware neural language models are incorporated to extract character-level knowledge. Transfer learning techniques are further adopted to mediate different components and guide the language model towards the key knowledge. Comparing to previous methods, these task-specific knowledge allows us to adopt a more concise model and conduct more efficient training. Different from most transfer learning methods, the proposed framework does not rely on any additional supervision. It extracts knowledge from self-contained order information of training sequences. Extensive experiments on benchmark datasets demonstrate the effectiveness of leveraging character-level knowledge and the efficiency of co-training. For example, on the CoNLL03 NER task, model training completes in about 6 hours on a single GPU, reaching F1 score of 91.71$\pm$0.10 without using any extra annotation.

研究动机与目标

  • 通过利用原始文本中的知识而无需额外标注来提升序列标注的动机。
  • 提出一个简洁的神经框架,将词级与字符级知识集成用于序列标注。
  • 通过高速层与有针对性的特征变换缓解语言建模与序列标注之间的任务不一致性。
  • 在与先前的最先进方法相比的标准基准上展示高效性与有效性。

提出的方法

  • 使用字符级 LSTM 语言模型来捕捉来自未标注文本的字符级知识。
  • 引入高速层,将字符级输出转化为两个任务特定空间:一个用于语言模型,一个用于序列标注。
  • 采用带 CRF 层的词级 BiLSTM 进行序列标注,并对词级知识进行预训练词向量的微调。
  • 联合目标函数将 CRF 似然性用于标签以及前向/后向语言模型似然性结合起来,并通过调解策略处理任务不一致性。
  • 在 GPU 上用随机梯度优化、 dropout 和梯度裁剪进行端到端训练,以实现高效性。

实验结果

研究问题

  • RQ1字符级语言模型的任务特定知识是否可以在无需额外监督的情况下改善序列标注?
  • RQ2基于高速层的调解是否能有效地将字符级表示对齐到语言建模和序列标注的需求?
  • RQ3与最先进方法相比,所提出的 LM-LSTM-CRF 在标准基准上的表现(准确率/F1)与训练效率如何?
  • RQ4微调词嵌入是否足以在不进行大规模协同训练的情况下利用词级知识?

主要发现

  • 相较于不使用外部资源的基线,LM-LSTM-CRF 在 CoNLL03 NER 的 F1 达到最先进水平(并在多项指标上与使用额外资源的方法并驾齐驱/更优)。
  • 模型在 WSJ POS 标注和 CoNLL00 分块任务上也取得强劲表现,与基线相比具有竞争力或更优。
  • 若将语言模型与序列标注进行协同训练且不使用调解,性能可能受挫;使用高速层对字符级特征进行变换可以缓解这一问题。
  • 对词级组件进行预训练词嵌入的微调使得高效利用词级知识成为可能,而无需大规模协同训练。
  • 该方法在单GPU上训练时间具有竞争力且模型简洁,与大型外部资源语言模型相比展现出强劲的效率。
  • 实证分析表明,LM-LSTM-CRF 的更大隐藏状态维度继续提升性能,而其他基线可能在较早阶段达到峰值,凸显任务特定知识提取的收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。