QUICK REVIEW

[论文解读] Latent Sequence Decompositions

William Chan, Yu Zhang|arXiv (Cornell University)|Oct 10, 2016

Speech Recognition and Synthesis被引用 37

一句话总结

本文提出潜在序列分解（LSD），一种在训练过程中学习可变长度标记分解的框架，其分解方式同时依赖于输入和输出序列。LSD 在 Wall Street Journal ASR 上实现 12.9% 的 WER，优于 14.8% 的字符级基线模型；当与深度卷积神经网络编码器结合时，WER 降低至 9.6%，证明了端到端、输入感知的序列分解学习的优势。

ABSTRACT

We present the Latent Sequence Decompositions (LSD) framework. LSD decomposes sequences with variable lengthed output units as a function of both the input sequence and the output sequence. We present a training algorithm which samples valid extensions and an approximate decoding algorithm. We experiment with the Wall Street Journal speech recognition task. Our LSD model achieves 12.9% WER compared to a character baseline of 14.8% WER. When combined with a convolutional network on the encoder, we achieve 9.6% WER.

研究动机与目标

为解决序列到序列模型中固定、确定性标记分解的局限性，此类分解通常次优且未考虑输入上下文。
使模型能够学习潜在序列分解的分布，而非依赖单一预定义的分割方式。
通过允许可变长度标记（如子词）同时适应输入语音和输出文本，提升自动语音识别性能。
开发一种训练与解码方法，能够逐步采样有效分解，并在训练过程中对所有可能的分解进行边际化。
证明联合学习输入与输出信息的分解可带来更好的泛化能力与更低的错误率。

提出的方法

LSD 将输出序列建模为从学习得到的字典中抽取的可变长度标记的潜在分解，其中每个标记来自字符 n-gram 的集合。
在训练过程中，模型从左到右逐步采样分解，采用 ε-贪婪策略以平衡对有效标记扩展的探索与利用。
在训练期间，模型对给定输出序列的所有可能分解进行边际化处理，使用可微分近似方法反向传播梯度。
在推理阶段，使用束搜索（beam search）解码最可能的输出序列及其对应分解。
该框架可集成到序列到序列模型中，并可与深度神经网络编码器（如带有残差连接和批量归一化的 CNN）结合使用。
训练目标采用带潜在分解采样的交叉熵损失，同时应用权重噪声以提升泛化能力。

实验结果

研究问题

RQ1与依赖固定分解相比，学习序列分解的分布是否能提升自动语音识别中的序列到序列建模性能？
RQ2是否允许分解同时依赖于输入和输出序列，相比仅基于输出的分解，能带来更好的性能？
RQ3能否将可变长度标记（如子词）作为模型的一部分端到端学习，而非通过启发式方法或外部模型预定义？
RQ4在标准 ASR 基准测试中，LSD 与固定标记基线（如字符级或词级）相比，WER 表现如何？
RQ5LSD 是否能与深度 CNN 等强大编码器架构有效结合，进一步提升性能？

主要发现

LSD 模型在 Wall Street Journal 测试集上实现 12.9% 的 WER，相比 14.8% 的字符级序列到序列基线，相对提升 12.7%。
当与深度卷积神经网络编码器结合时，LSD 模型实现 9.6% 的 WER，相比同一基线相对提升 35.1%。
模型能为同一输出序列学习多种有效分解方式，例如根据上下文将 'cat' 表示为 'c','a','t' 或 'ca','t' 或 'cat'。
潜在分解学习的使用使模型避免了词级模型的 OOV 问题以及字符级模型的长序列长度问题。
该框架成功学习了多模态输出分布，且无需依赖马尔可夫假设，与 CTC 或 HMM 基模型不同。
结果表明，输入感知的分解学习可实现更高效、更准确的端到端 ASR 序列建模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。