[论文解读] Developing Acoustic Models for Automatic Speech Recognition in Swedish
该论文使用在 SpeechDat Swedish 语料库上训练的 HMMs 构建说话人无关的瑞典语声学模型,比较单音素和三音素配置,结合不同上下文扩展与高斯混合并在200名说话人子集上进行评估。
This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing hidden Markov models and using the SpeechDat database to train their parameters. Acoustic modeling has been worked out at a phonetic level, allowing general speech recognition applications, even though a simplified task (digits and natural number recognition) has been considered for model evaluation. Different kinds of phone models have been tested, including context independent models and two variations of context dependent models. Furthermore many experiments have been done with bigram language models to tune some of the system parameters. System performance over various speaker subsets with different sex, age and dialect has also been examined. Results are compared to previous similar studies showing a remarkable improvement.
研究动机与目标
- 为各种任务(数字、自然数和更大词汇量)使用大型、多样化说话人数据库,开发鲁棒的瑞典语声学模型。
- 探索上下文无关与上下文相关(三音素)HMM,了解性能权衡。
- 评估词汇配置中的不同因素对识别准确性的影响(卷舌音同位音)。
- 通过按性别、年龄、方言地区和噪声条件划分的说话人子集来评估模型的泛化能力。
- 通过在外部数据库(Waxholm)上测试并与挪威 SpeechDat 结果比较,展示模型的灵活性。
提出的方法
- 为目标瑞典语音素及非目标语音(噪声、静音、单词边界、垃圾音)训练基于HMM的声学模型。
- 在单音素与三音素拓扑结构之间进行实验;对爆破音使用四发射状态HMM,对其他音素使用三发射状态HMM。
- 对三音素模型进行词内与跨词上下文扩展;应用树聚类以应对数据稀疏。
- 用高斯混合(2、4、8 项)来增强输出分布,以改善拟合与泛化。
- 使用带标签的音素转录嵌入的 Baum-Welch 训练模型;在训练中包括垃圾音和边界模型。
- 使用动态规划对齐来评估以计算正确词和准确率。
实验结果
研究问题
- RQ1在电话信道条件下,单音素与三音素声学模型在瑞典语识别准确度方面有何差异?
- RQ2词内上下文扩展与跨词上下文扩展对三音素模型性能的影响如何?
- RQ3在所用数据集与任务中,将卷舌音同位音包含在词汇表中是提高还是降低识别准确度?
- RQ4高斯混合项数(2、4、8)对单音素和三音素模型的识别性能有何影响?
- RQ5开发的模型在按性别、年龄、方言和区域变异定义的说话人子集上有多鲁棒?
- RQ6开发的瑞典语声学模型能否泛化到其他数据集(Waxholm),与挪威 SpeechDat 的结果相比如何?
主要发现
| Experiment | Corr (mb) | Acc (mb) | Corr (nmb) | Acc (nmb) | Corr (ctba) | Acc (ctba) | Corr (cntba) | Acc (cntba) | Corr (ctnba) | Acc (ctnba) | Corr (cntnba) | Acc (cntnba) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| mb | 69.4 | 66.4 | 68.1 | 63.1 | N/A | N/A | N/A | N/A | N/A | N/A | N/A | |
| nmb | 68.1 | 63.1 | 71.5 | 67.9 | N/A | N/A | N/A | N/A | N/A | N/A | N/A | |
| ctba | 89.5 | 87.4 | 90.7 | 88.5 | 90.8 | 88.6 | N/A | N/A | N/A | N/A | N/A | |
| cntba | 89.1 | 86.4 | 90.3 | 88.1 | 90.5 | 88.3 | N/A | N/A | N/A | N/A | N/A | |
| ctnba | 86.1 | 81.8 | 87.8 | 84.0 | 88.4 | 84.8 | N/A | N/A | N/A | N/A | N/A | |
| cntnba | 86.8 | 84.2 | 88.4 | 86.1 | 88.9 | 86.5 | N/A | N/A | N/A | N/A | N/A |
- 在内部词上下文扩展的三音素模型中使用8个高斯混合时,获得最佳整体准确率88.6%。
- 单音素模型在增加高斯混合数(4到8)时有提升,而三音素的提升在更多混合数时较小。
- 在所用任务与词汇表中,排除卷舌音同位音的模型通常优于包含卷舌音同位音的模型。
- 跨词上下文扩展在该任务中导致鲁棒性较差,而词内上下文扩展因跨句子上下文有限(如数字)而提供更高的准确率。
- 在对200名说话人进行评估时,大多数说话人达到高准确率,标注为‘goats’的子集显著较低;结果随地区和方言而异,例如 Bergslagen 地区表现良好,而瑞南部区域较具挑战性。
- 在Waxholm上的测试表明模型具有灵活性和竞争性,尽管任务存在差异;挪威结果大致相似,虽然不可直接比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。