QUICK REVIEW

[论文解读] Aphasic Speech Recognition using a Mixture of Speech Intelligibility Experts

Matthew Perez, Zakaria Aldeneh|arXiv (Cornell University)|Aug 24, 2020

Speech Recognition and Synthesis参考文献 30被引用 14

一句话总结

本文提出了一种用于失语症语音识别的专家混合（MoE）声学模型，通过基于严重程度的专家显式建模语音可懂度，显著降低了语音错误率。在推理阶段，语音可懂度检测器（SID）估计说话人严重程度，动态加权专家贡献，相较于统一的基线模型，在严重失语症中取得了显著性能提升。

ABSTRACT

Robust speech recognition is a key prerequisite for semantic feature extraction in automatic aphasic speech analysis. However, standard one-size-fits-all automatic speech recognition models perform poorly when applied to aphasic speech. One reason for this is the wide range of speech intelligibility due to different levels of severity (i.e., higher severity lends itself to less intelligible speech). To address this, we propose a novel acoustic model based on a mixture of experts (MoE), which handles the varying intelligibility stages present in aphasic speech by explicitly defining severity-based experts. At test time, the contribution of each expert is decided by estimating speech intelligibility with a speech intelligibility detector (SID). We show that our proposed approach significantly reduces phone error rates across all severity stages in aphasic speech compared to a baseline approach that does not incorporate severity information into the modeling process.

研究动机与目标

提升自动语音识别（ASR）在失语症语音上的鲁棒性，因为失语症语音存在可懂度低和说话人差异大的问题。
通过在声学模型中显式建模语音可懂度，解决失语症语音中数据稀缺和变异大的挑战。
探究基于严重程度的专家建模是否在障碍性语音识别中优于传统的统一模型ASR。
评估数据分配策略（如Solo + Neighbor）在低资源失语症语音设置下对MoE性能的影响。
评估可训练神经SID在MoE框架中引导专家贡献的有效性。

提出的方法

MoE声学模型包含四个专家，每个专家专门针对特定的失语商（AQ）严重程度类别：正常、轻度、中度和重度。
语音可懂度检测器（SID）使用fMLLR和x-vector特征，在帧级或话语级预测严重程度类别。
在推理阶段，通过SID的软概率（即类似注意力的门控机制）动态加权专家贡献，以合并senone后验概率。
模型使用共享主干网络层提取通用声学特征，再将特征路由至特定严重程度的专家。
数据分配策略包括“Solo”（专家仅在其严重程度类别上训练）和“Solo + Neighbor”（专家在其类别及相邻类别上训练），后者显示出更好的泛化能力。
SID在说话人级别的AQ分数上进行判别式训练，以预测严重程度，性能通过混淆矩阵进行评估。

实验结果

研究问题

RQ1与统一的基线ASR模型相比，通过基于严重程度的专家显式建模语音可懂度，是否能提升失语症语音中的语音识别性能？
RQ2在低资源失语症语音设置下，数据分配策略的选择（如Solo与Solo + Neighbor）如何影响MoE性能？
RQ3与基于oracle的SID相比，能够预测帧级或话语级严重程度的可训练神经SID是否能提升MoE性能？
RQ4由于说话人级别AQ分数的不完美性，其对SID和MoE系统有效性的限制程度如何？
RQ5在MoE框架中，神经SID是否能超越oracle SID？这说明了帧级与说话人级别可懂度的相关性如何？

主要发现

采用训练好的神经SID（SIDutt）的MoE模型相较于基线模型，在整体语音错误率（PER）上实现了2.9%的相对提升，其中轻度、中度和重度失语症的提升分别达到3.3%、2.0%和5.6%。
“Solo + Neighbor”数据分配策略显著优于“Solo”和“Solo + Healthy”，表明在相邻严重程度类别间共享数据可有效缓解数据稀缺问题。
尽管SID性能不完美（例如相邻严重程度类别间存在混淆），其仍能带来相较于基线模型的性能提升，表明即使噪声较大的可懂度估计也能有效指导专家路由。
采用神经SID的MoE模型优于使用oracle SID的相同模型，表明帧级或话语级可懂度可能比说话人级别的AQ分数更具信息量。
帧级SID的混淆矩阵显示，尽管AQ标签存在局限，该SID仍能学习区分可懂度趋势，特别是在相邻严重程度类别之间。
结果表明，通过MoE和可训练SID显式建模语音可懂度，可在所有严重程度级别上实现稳健的性能提升，尤其在重度失语症中提升最为显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。