Skip to main content
QUICK REVIEW

[论文解读] Towards End-to-End Code-Switching Speech Recognition

Ne Luo, Dongwei Jiang|arXiv (Cornell University)|Oct 31, 2018
Speech Recognition and Synthesis参考文献 18被引用 43
一句话总结

本文提出一种混合 CTC-Attention 的端到端普通话-英语混合语码切换语音识别系统,在 SEAME 上研究建模单元、语言识别和解码策略,测试集的 MER 低至 34.24%。

ABSTRACT

Code-switching speech recognition has attracted an increasing interest recently, but the need for expert linguistic knowledge has always been a big issue. End-to-end automatic speech recognition (ASR) simplifies the building of ASR systems considerably by predicting graphemes or characters directly from acoustic input. In the mean time, the need of expert linguistic knowledge is also eliminated, which makes it an attractive choice for code-switching ASR. This paper presents a hybrid CTC-Attention based end-to-end Mandarin-English code-switching (CS) speech recognition system and studies the effect of hybrid CTC-Attention based models, different modeling units, the inclusion of language identification and different decoding strategies on the task of code-switching ASR. On the SEAME corpus, our system achieves a mixed error rate (MER) of 34.24%.

研究动机与目标

  • 为码混合切换的端到端方法提供动机,以减少对语言学家专业知识和词汇表的依赖。
  • 评估用于普通话-英语混合语码切换的混合 CTC-Attention 架构。
  • 研究建模单元(字符与子词)及语言识别的影响。
  • 评估解码策略及其对混合语言输出质量的影响。
  • 分析 SEAME 语料库,以确定针对码混合语音识别的有效配置。

提出的方法

  • 采用端到端混合 CTC-Attention 框架,训练编码器同时使用 CTC 与注意力损失。
  • 探索两种建模单元配置:字符-字符和字符-子词(对英语子词使用 BPE)。
  • 通过 LID-Label 与 LID-MTL 多任务学习在编码器上集成联合语言识别。
  • 在解码阶段应用结合两种字词信息的束搜索解码(Decode1 与 Decode2),以改善词形有效性。
  • 在解码时将一个 RNN 语言模型与混合模型结合。
  • 在 SEAME 普通话-英语混合语料上训练并评估。

实验结果

研究问题

  • RQ1混合 CTC-Attention 的端到端模型能否在不依赖人工词典的情况下达到传统码混合语音识别的性能?
  • RQ2哪种声学建模单元(字符 vs 子词)最有利于普通话-英语混合?
  • RQ3联合语言识别是否能提高码混合语音识别性能,如是,应该如何集成?
  • RQ4强制词有效性的解码策略是否能改善混合语言的识别结果?

主要发现

  • 混合 CTC-Attention 模型在 SEAME 的 MER 上优于许多传统码混合系统。
  • 字符-子词单元在普通话-英语混合中优于字符-字符单元。
  • LID-MTL 当 LID 权重适中时提升 MER,0.1 明显提升。
  • 带有词信息约束的 Decode2 解码策略在比 Decode1 更低的 MER,尤其是在使用 LID-MTL 时。
  • 包含词级词典和解码约束有助于引导束搜索到有效词,从而降低最终 MER。
  • 在 SEAME 测试集上报道的最佳 MER:34.24%(LID-MTL 与 Decode2,混合-200 子词)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。