[论文解读] The CAPIO 2017 Conversational Speech Recognition System
CAPIO 2017 系统引入密集连接的 LSTM(dense LSTMs)以及通过参数平均实现的简单声学模型自适应,在 NIST 2000 Hub5 English 上达到了最先进的 WER。它还在非电话数据集 TED-LIUM 和 LibriSpeech 上展现出强劲的结果。
In this paper we show how we have achieved the state-of-the-art performance on the industry-standard NIST 2000 Hub5 English evaluation set. We explore densely connected LSTMs, inspired by the densely connected convolutional networks recently introduced for image classification tasks. We also propose an acoustic model adaptation scheme that simply averages the parameters of a seed neural network acoustic model and its adapted version. This method was applied with the CallHome training corpus and improved individual system performances by on average 6.1% (relative) against the CallHome portion of the evaluation set with no performance loss on the Switchboard portion. With RNN-LM rescoring and lattice combination on the 5 systems trained across three different phone sets, our 2017 speech recognition system has obtained 5.0% and 9.1% on Switchboard and CallHome, respectively, both of which are the best word error rates reported thus far. According to IBM in their latest work to compare human and machine transcriptions, our reported Switchboard word error rate can be considered to surpass the human parity (5.1%) of transcribing conversational telephone speech.
研究动机与目标
- 发展密集连接的 LSTM 架构,以缓解用于会话语音识别的深层声学模型中的梯度消失。
- 提出一种基于对种子模型和自适应模型参数进行平均的可扩展声学模型自适应方案。
- 在多音位集合和犹豫建模下探索多样化的声学模型(dense LSTM 和 CNN-bLSTM),以提升系统鲁棒性。
- 通过对电话通讯数据(Switchboard/CallHome)与非电话数据集(TED-LIUM/LibriSpeech)的广泛实验,展示系统性能。
- 表明密集架构加上系统融合在标准基准上实现了最先进的 WER。
提出的方法
- 提出密集连接的 LSTM 架构(dense LSTMs),在一个 dense block 内将所有前层的输出连接起来以对抗梯度消失。
- 实现两种密集 LSTM 变体:dense TDNN-LSTM 与 dense CNN-bLSTM,使用 LF-MMI 训练和 SAT/fMLLR 预处理进行评估。
- 通过对种子模型参数和其自适应版本的平均来应用声学模型自适应(在自适配过程中跨 GPU 的参数平均)。
- 使用多种音位集(PronLex, CMU, MSU)和犹豫建模(2 vs 11 hesitations)来构建多样的 CNN-bLSTMs;在不同配置下进行训练与比较。
- 训练语言模型(4-gram 和 RNN LMs),并在多种系统之间进行基于晶格的最小贝叶斯风险系统融合。
实验结果
研究问题
- RQ1密集连接的 LSTM 是否能够在不出现梯度消失的情况下实现更深的 LSTM 网络用于语音识别,从而在 WER 上超过残差连接?
- RQ2简单的参数平均自适应是否能稳定提升领域特定(CallHome)的性能而不降低 Switchboard 的性能?
- RQ3不同的 dense LSTM 和 CNN-bLSTM 配置在 Switchboard 与 CallHome 的多音位集合和犹豫模型下的表现如何?
- RQ4多样模型的系统融合在达成 Hub5 English 基准的最先进 WER 上有何影响?
- RQ5提出的密集架构是否能推广到非电话数据集,如 TED-LIUM 和 LibriSpeech?
主要发现
- 当添加更多层时,Dense LSTMs 不断提升,在超过 10 层时达到比残差 LSTMs 更低的 WER。
- Dense CNN-bLSTM 和 dense TDNN-LSTM 变体相对非密集基线显示出显著的 WER 减少,PronLex/2 犹豫模型获得了强劲结果。
- 使用参数平均的声学模型自适应在 CallHome 的 WER 平均相对提升约 5%,同时保持 Switchboard 的性能。
- 八个多样系统的系统融合在 Switchboard 取得 5.0% WER,CallHome 9.1% WER,届时该设置下报道的最佳结果。
- RNN LM 重新打分在各配置中提供持续改进,对某些密集模型在 Switchboard 的 WER 甚至实现最多 8% 的相对降低。
- 对于非电话数据(TED-LIUM LibriSpeech),密集架构在组合时为各自语料库贡献了最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。