QUICK REVIEW

[论文解读] Sequence-to-Sequence Neural Net Models for Grapheme-to-Phoneme Conversion

Kaisheng Yao, Geoffrey Zweig|arXiv (Cornell University)|May 31, 2015

Natural Language Processing Techniques参考文献 24被引用 68

一句话总结

本文提出使用双向长短期记忆（LSTM）网络进行图素到音素（G2P）转换，利用对齐信息显著超越先前的最先进方法。通过结合侧条件序列到序列建模与双向LSTM及对齐数据，该模型在CMUDict数据集上实现了23.55%的词错误率（WER），相比之前最佳结果提升1.0个百分点，且具有统计显著性。

ABSTRACT

Sequence-to-sequence translation methods based on generation with a side-conditioned language model have recently shown promising results in several tasks. In machine translation, models conditioned on source side words have been used to produce target-language text, and in image captioning, models conditioned images have been used to generate caption text. Past work with this approach has focused on large vocabulary tasks, and measured quality in terms of BLEU. In this paper, we explore the applicability of such models to the qualitatively different grapheme-to-phoneme task. Here, the input and output side vocabularies are small, plain n-gram models do well, and credit is only given when the output is exactly correct. We find that the simple side-conditioned generation approach is able to rival the state-of-the-art, and we are able to significantly advance the stat-of-the-art with bi-directional long short-term memory (LSTM) neural networks that use the same alignment information that is used in conventional approaches.

研究动机与目标

评估带侧条件生成的序列到序列神经网络在图素到音素（G2P）任务中的适用性。
探究基于神经网络的模型是否能在G2P转换中超越传统的n-gram和最大熵模型。
评估在G2P任务中引入对齐信息对模型性能的影响。
确定与标准单向或编码器-解码器设置相比，更深或双向架构是否能提升G2P准确率。

提出的方法

采用编码器-解码器LSTM架构，并对输入进行时间反转，以从图素输入生成音素序列。
使用双向LSTM捕捉输入图素序列中的过去与未来上下文。
将图素与音素之间的对齐信息作为输入特征，以引导模型预测。
使用交叉熵损失函数，基于图素序列和对齐信息的条件下，对音素序列的概率进行训练。
解码时采用束搜索（beam search），束宽为1，因为更大的束宽未带来性能提升。
在单向模型中使用3个字母（后扩展至6个）的上下文窗口，以增强上下文感知能力。

实验结果

研究问题

RQ1带侧条件的序列到序列神经网络是否能在G2P任务中实现具有竞争力的性能，该任务要求精确的音素输出且词汇量较小？
RQ2与单向或编码器-解码器LSTM相比，使用双向LSTM是否能提升G2P性能？
RQ3在多大程度上，引入对齐信息能提升基于神经网络的G2P模型性能？
RQ4更深的网络架构（如3层双向LSTM）是否能进一步提升G2P转换的最先进结果？

主要发现

带有对齐信息的双向LSTM在CMUDict数据集上实现了23.55%的词错误率（WER），显著优于先前最先进水平的24.53% WER。
该模型在CMUDict上的音素错误率（PER）降低至5.45%，相比之前最佳的5.88%提升了0.43个百分点。
在NetTalk数据集上，双向LSTM实现了30.77%的WER，优于先前最佳结果33.67%，提升2.9个百分点。
在Pronlex数据集上，该模型实现了26.69%的WER，相比先前最佳的27.33%提升了0.64个百分点。
在单向模型中使用更大的上下文窗口（6个字母）后，性能提升至28.56% WER，接近编码器-解码器LSTM的结果。
三层双向LSTM在整体性能上表现最佳，表明更深的架构能从双向上下文和对齐信息中获益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。