QUICK REVIEW

[论文解读] Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Shiyu Zhou, Linhao Dong|arXiv (Cornell University)|Apr 28, 2018

Speech Recognition and Synthesis参考文献 23被引用 28

一句话总结

本文提出一种基于音节的序列到序列语音识别系统，采用Transformer架构用于普通话自动语音识别（ASR）。结果表明，与不依赖上下文的音素建模相比，音节建模可取得更优性能，字符错误率（CER）达到28.77%，与当前最先进模型性能相当，并在相同数据集上较不依赖上下文的音素基基线模型高出超过2个百分点。

ABSTRACT

Sequence-to-sequence attention-based models have recently shown very promising results on automatic speech recognition (ASR) tasks, which integrate an acoustic, pronunciation and language model into a single neural network. In these models, the Transformer, a new sequence-to-sequence attention-based model relying entirely on self-attention without using RNNs or convolutions, achieves a new single-model state-of-the-art BLEU on neural machine translation (NMT) tasks. Since the outstanding performance of the Transformer, we extend it to speech and concentrate on it as the basic architecture of sequence-to-sequence attention-based model on Mandarin Chinese ASR tasks. Furthermore, we investigate a comparison between syllable based model and context-independent phoneme (CI-phoneme) based model with the Transformer in Mandarin Chinese. Additionally, a greedy cascading decoder with the Transformer is proposed for mapping CI-phoneme sequences and syllable sequences into word sequences. Experiments on HKUST datasets demonstrate that syllable based model with the Transformer performs better than CI-phoneme based counterpart, and achieves a character error rate (CER) of \emph{$28.77\%$}, which is competitive to the state-of-the-art CER of $28.0\%$ by the joint CTC-attention based encoder-decoder network.

研究动机与目标

评估Transformer架构在普通话自动语音识别中的有效性。
比较序列到序列注意力机制ASR中基于音节与不依赖上下文的音素（CI-phoneme）建模单元的性能。
开发并验证一种贪心级联解码器，用于将子词单元（音节或CI-音素）映射为词序列。
研究数据增强（速度扰动）和帧率对模型性能的影响。

提出的方法

采用仅依赖自注意力机制、无循环连接或卷积操作的Transformer编码器-解码器架构。
使用音节作为子词单元进行声学建模，利用其固定词表和在普通话中较低的OOV风险。
训练基于音节或CI-音素的Transformer模型，将声学特征映射为子词序列。
实现一种贪心级联解码器，通过先预测子词序列，再将其映射为词序列，以最大化后验概率P(W|X)。
应用速度扰动（将音频分别缩放为0.9和1.1）以增强训练数据，提升模型鲁棒性。
在不同帧率（30ms、50ms、70ms）下评估性能，以分析输入时间分辨率对模型的影响。

实验结果

研究问题

RQ1当应用于基于音节的建模时，Transformer架构在普通话ASR中是否能取得优异性能？
RQ2在基于Transformer的序列到序列ASR中，基于音节的建模是否优于不依赖上下文的音素建模？
RQ3贪心级联解码器能否有效将子词序列（音节或CI-音素）转换为词序列，从而改善CER？
RQ4通过速度扰动进行数据增强如何影响基于音节和CI-音素的模型性能？
RQ5帧率如何影响基于Transformer的ASR模型在普通话中的性能？

主要发现

基于音节的Transformer模型实现了28.77%的字符错误率（CER），与当前最先进模型性能相当。
在相同数据集上，基于音节的模型较CI-音素基模型高出超过2个百分点，CER为30.65%。
速度扰动显著提升了基于音节模型的性能，CER从29.87%降低至28.77%，而对CI-音素模型则略有负面影响。
两种模型的性能均随帧率增加而下降，尤其在50ms至70ms之间出现明显下降，表明在30–50ms帧率下性能最优。
贪心级联解码器通过利用子词到词的映射，有效提升了词级识别性能，改善了整体后验概率估计。
Transformer模型在普通话ASR中表现出色，验证了其在低资源和基于音节语言中序列到序列建模的适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。