QUICK REVIEW

[论文解读] Deep Active Learning for Named Entity Recognition

Yanyao Shen, Hyokun Yun|arXiv (Cornell University)|Jul 19, 2017

Topic Modeling参考文献 43被引用 43

一句话总结

本文提出一种轻量级的 CNN-CNN-LSTM 架构用于命名实体识别（NER），并结合增量主动学习，显著降低对标注数据的需求。通过使用基于不确定性的采样和增量微调，该方法在 OntoNotes-5.0 英文和中文数据集上分别仅使用 24.9% 和 30.1% 的训练数据，即可达到完全监督模型 99% 的性能，展示了在数据稀缺 NER 场景下的最先进效率。

ABSTRACT

Deep learning has yielded state-of-the-art performance on many natural language processing tasks including named entity recognition (NER). However, this typically requires large amounts of labeled data. In this work, we demonstrate that the amount of labeled training data can be drastically reduced when deep learning is combined with active learning. While active learning is sample-efficient, it can be computationally expensive since it requires iterative retraining. To speed this up, we introduce a lightweight architecture for NER, viz., the CNN-CNN-LSTM model consisting of convolutional character and word encoders and a long short term memory (LSTM) tag decoder. The model achieves nearly state-of-the-art performance on standard datasets for the task while being computationally much more efficient than best performing models. We carry out incremental active learning, during the training process, and are able to nearly match state-of-the-art performance with just 25\% of the original training data.

研究动机与目标

通过减少对大规模标注数据集的依赖，解决命名实体识别（NER）中的高数据标注成本问题。
克服传统主动学习在深度学习中计算效率低下的问题，后者在每次标注轮次后需要完整重训。
开发一种轻量级、计算高效的神经网络架构，在标准 NER 基准测试中保持具有竞争力的性能。
证明增量训练结合主动学习可使用更少的标注数据，达到或超过完全监督模型的性能。
探究基于不确定性的主动学习是否能自动检测并优先处理训练数据中代表性不足的语料类型。

提出的方法

提出 CNN-CNN-LSTM 架构：包括卷积字符编码器、卷积词编码器和 LSTM 标签解码器，实现高效训练并提升对 OOV（未登录词）的鲁棒性。
实施增量主动学习：每次标注轮次后，仅通过新标注批次更新模型权重，而非完整重训，从而降低计算成本。
采用简单的基于不确定性的选择启发式方法：选择模型当前预测的长度归一化对数概率最低的句子。
迭代应用该选择策略，从 1% 的训练数据开始，每轮以 20,000 个词为批次扩展标注集。
每轮在增强数据集上训练模型 50 个周期，使用随机梯度下降优化，并在每轮后对测试集进行性能评估。
将所提方法与随机采样、不确定性采样（LC）、BALD 和子模选择方法进行对比，以 F1 为首要评估指标。

实验结果

研究问题

RQ1轻量级深度学习架构能否在显著快于现有模型的训练速度下，实现具有竞争力的 NER 性能？
RQ2主动学习在 NER 中能在多大程度上减少对标注数据的需求，同时不牺牲性能？
RQ3基于不确定性的主动学习结合增量训练，是否在数据效率方面优于随机采样和其他主动学习基线方法？
RQ4主动学习算法能否自动识别并优先处理像 OntoNotes 这类多样化数据集中代表性不足的语料类型？
RQ5随着标注数据量的增加，主动学习的性能如何变化？在什么点上，其性能会超越在完整数据集上训练的浅层模型？

主要发现

CNN-CNN-LSTM 模型在 OntoNotes-5.0 英文和中文数据集上均表现出具有竞争力的性能，F1 分别达到 86.52 和 75.63，且训练速度比基于 CRF 的模型快 3.5 倍。
在 OntoNotes-5.0 英文数据集上，该方法仅使用 24.9% 的训练数据，即可达到完全监督模型 99% 的 F1 分数。
在 OntoNotes-5.0 中文数据集上，该方法仅使用原始训练数据的 30.1%，即可匹配最佳模型 99% 的性能。
使用所提方法的主动学习，在英文上仅使用 12.0% 的训练数据，中文上仅使用 16.9% 的训练数据，其性能即超越在完整数据集上训练的浅层模型。
MNLP 不确定性启发式方法仅需一次前向传播，其在早期轮次中的表现优于 BALD，计算效率更高，且性能相当。
主动学习算法能自动检测并从代表性不足的语料类型（如广播新闻和电话对话）中采样更多样本，当新闻稿在训练数据中代表性不足时，表现出隐式的语料类型感知采样能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。