Skip to main content
QUICK REVIEW

[论文解读] Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Shiyu Zhou, Linhao Dong|arXiv (Cornell University)|Apr 28, 2018
Speech Recognition and Synthesis参考文献 23被引用 28
一句话总结

本文提出一种基于音节的序列到序列语音识别系统,采用Transformer架构用于普通话自动语音识别(ASR)。结果表明,与不依赖上下文的音素建模相比,音节建模可取得更优性能,字符错误率(CER)达到28.77%,与当前最先进模型性能相当,并在相同数据集上较不依赖上下文的音素基基线模型高出超过2个百分点。

ABSTRACT

Sequence-to-sequence attention-based models have recently shown very promising results on automatic speech recognition (ASR) tasks, which integrate an acoustic, pronunciation and language model into a single neural network. In these models, the Transformer, a new sequence-to-sequence attention-based model relying entirely on self-attention without using RNNs or convolutions, achieves a new single-model state-of-the-art BLEU on neural machine translation (NMT) tasks. Since the outstanding performance of the Transformer, we extend it to speech and concentrate on it as the basic architecture of sequence-to-sequence attention-based model on Mandarin Chinese ASR tasks. Furthermore, we investigate a comparison between syllable based model and context-independent phoneme (CI-phoneme) based model with the Transformer in Mandarin Chinese. Additionally, a greedy cascading decoder with the Transformer is proposed for mapping CI-phoneme sequences and syllable sequences into word sequences. Experiments on HKUST datasets demonstrate that syllable based model with the Transformer performs better than CI-phoneme based counterpart, and achieves a character error rate (CER) of \emph{$28.77\%$}, which is competitive to the state-of-the-art CER of $28.0\%$ by the joint CTC-attention based encoder-decoder network.

研究动机与目标

  • 评估Transformer架构在普通话自动语音识别中的有效性。
  • 比较序列到序列注意力机制ASR中基于音节与不依赖上下文的音素(CI-phoneme)建模单元的性能。
  • 开发并验证一种贪心级联解码器,用于将子词单元(音节或CI-音素)映射为词序列。
  • 研究数据增强(速度扰动)和帧率对模型性能的影响。

提出的方法

  • 采用仅依赖自注意力机制、无循环连接或卷积操作的Transformer编码器-解码器架构。
  • 使用音节作为子词单元进行声学建模,利用其固定词表和在普通话中较低的OOV风险。
  • 训练基于音节或CI-音素的Transformer模型,将声学特征映射为子词序列。
  • 实现一种贪心级联解码器,通过先预测子词序列,再将其映射为词序列,以最大化后验概率P(W|X)。
  • 应用速度扰动(将音频分别缩放为0.9和1.1)以增强训练数据,提升模型鲁棒性。
  • 在不同帧率(30ms、50ms、70ms)下评估性能,以分析输入时间分辨率对模型的影响。

实验结果

研究问题

  • RQ1当应用于基于音节的建模时,Transformer架构在普通话ASR中是否能取得优异性能?
  • RQ2在基于Transformer的序列到序列ASR中,基于音节的建模是否优于不依赖上下文的音素建模?
  • RQ3贪心级联解码器能否有效将子词序列(音节或CI-音素)转换为词序列,从而改善CER?
  • RQ4通过速度扰动进行数据增强如何影响基于音节和CI-音素的模型性能?
  • RQ5帧率如何影响基于Transformer的ASR模型在普通话中的性能?

主要发现

  • 基于音节的Transformer模型实现了28.77%的字符错误率(CER),与当前最先进模型性能相当。
  • 在相同数据集上,基于音节的模型较CI-音素基模型高出超过2个百分点,CER为30.65%。
  • 速度扰动显著提升了基于音节模型的性能,CER从29.87%降低至28.77%,而对CI-音素模型则略有负面影响。
  • 两种模型的性能均随帧率增加而下降,尤其在50ms至70ms之间出现明显下降,表明在30–50ms帧率下性能最优。
  • 贪心级联解码器通过利用子词到词的映射,有效提升了词级识别性能,改善了整体后验概率估计。
  • Transformer模型在普通话ASR中表现出色,验证了其在低资源和基于音节语言中序列到序列建模的适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。