QUICK REVIEW

[论文解读] Segmental Recurrent Neural Networks

Lingpeng Kong, Chris Dyer|arXiv (Cornell University)|Nov 18, 2015

Natural Language Processing Techniques参考文献 17被引用 68

一句话总结

该论文提出了分段循环神经网络（SRNNs），一种通过使用双向RNN编码可变长度输入片段，并结合标签兼容性得分，利用半马尔可夫CRF联合学习序列输入的分段与标注的模型。SRNN在手写识别以及中文分词/词性标注任务中达到最先进性能，显著优于CTC和BIO标注基线模型，其优势在于显式建模分段边界与标签间依赖关系。

ABSTRACT

We introduce segmental recurrent neural networks (SRNNs) which define, given an input sequence, a joint probability distribution over segmentations of the input and labelings of the segments. Representations of the input segments (i.e., contiguous subsequences of the input) are computed by encoding their constituent tokens using bidirectional recurrent neural nets, and these "segment embeddings" are used to define compatibility scores with output labels. These local compatibility scores are integrated using a global semi-Markov conditional random field. Both fully supervised training -- in which segment boundaries and labels are observed -- as well as partially supervised training -- in which segment boundaries are latent -- are straightforward. Experiments on handwriting recognition and joint Chinese word segmentation/POS tagging show that, compared to models that do not explicitly represent segments such as BIO tagging schemes and connectionist temporal classification (CTC), SRNNs obtain substantially higher accuracies.

研究动机与目标

为解决现有序列建模方法（如CTC与BIO标注）未显式建模分段边界或标签间依赖关系的局限性。
开发一种深度学习框架，联合预测语音、手写、文本等序列数据的分段边界与标签。
通过边缘似然目标函数，支持完全监督与部分监督训练，其中分段边界可能为隐变量。
通过显式建模分段级表示与依赖关系，提升结构化输出预测任务的性能。
探索学习到的分段嵌入在标注任务之外的潜在用途，可能对下游任务带来益处。

提出的方法

SRNN通过半马尔可夫条件随机场定义分段与标注的联合概率分布，其中分段嵌入由双向RNN学习得到。
每个分段通过前向与后向RNN处理输入子序列，捕获双向上下文信息。
通过前馈网络学习的兼容性函数，将分段嵌入与标签及持续时间特征进行组合。
模型使用链式结构的团势能函数，建模标签依赖关系与分段长度，支持高效的动态规划推理。
训练采用完全监督目标（分段边界已知）或部分监督目标（边界为隐变量），使用边缘似然函数。
最终预测通过在分段边界与标签上进行联合最大化获得，近似对边界的边缘化。

实验结果

研究问题

RQ1与CTC和BIO标注相比，显式建模分段边界与分段级表示是否能提升序列标注任务的性能？
RQ2通过半马尔可夫CRF结构引入标签间依赖关系，是否能提升手写识别与中文分词等任务的准确性？
RQ3SRNN能否在分段边界未在训练中观测到的部分监督设置下有效工作？
RQ4与帧级标注相比，双向RNN学习的分段嵌入如何提升标签预测性能？
RQ5即使分段并非主要任务目标，显式分段能力是否仍具有实际益处？

主要发现

在EMNIST数据集的手写数字识别任务中，SRNN相比CTC基线模型，F1得分绝对提升2.1%，表现显著更优。
在SIGHAN 2005中文分词基准测试中，SRNN在四个测试集上的平均F1得分为93.5%，优于强基线模型（包括CTC与BIO模型）。
模型在不同中文文本变体（包括繁体中文CU、AS与简体中文MSR、PKU）上均表现稳健，F1得分在90.6%至93.7%之间。
SRNN在分词与词性标注任务中均实现一致性能提升，表明联合建模分段边界与标签具有显著优势。
使用双向RNN进行分段编码可生成更具上下文感知的表示，从而提升标签兼容性得分。
通过边缘似然训练实现对隐式分段边界的建模，使模型在低资源或弱监督设置下仍具有效用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。