QUICK REVIEW

[论文解读] Voice Disorder Detection Using Long Short Term Memory (LSTM) Model

Vibhuti Gupta|arXiv (Cornell University)|Jan 1, 2018

Voice and Speech Disorders参考文献 1被引用 8

一句话总结

本文提出了一种基于LSTM的深度学习模型，用于使用从语音样本中提取的音频特征，自动检测语音障碍。该模型结合了梅尔频率倒谱系数（MFCC）、频谱质心、音高和频谱对比度特征（共33个），通过具有两层隐藏层（128和32个神经元）的LSTM进行训练，在400个未标记测试样本上实现了22%的敏感度、97%的特异度和56%的未加权平均召回率。

ABSTRACT

Automated detection of voice disorders with computational methods is a recent research area in the medical domain since it requires a rigorous endoscopy for the accurate diagnosis. Efficient screening methods are required for the diagnosis of voice disorders so as to provide timely medical facilities in minimal resources. Detecting Voice disorder using computational methods is a challenging problem since audio data is continuous due to which extracting relevant features and applying machine learning is hard and unreliable. This paper proposes a Long short term memory model (LSTM) to detect pathological voice disorders and evaluates its performance in a real 400 testing samples without any labels. Different feature extraction methods are used to provide the best set of features before applying LSTM model for classification. The paper describes the approach and experiments that show promising results with 22% sensitivity, 97% specificity and 56% unweighted average recall.

研究动机与目标

开发一种自动化、低成本且高效的语音障碍检测方法，利用计算模型。
解决传统内窥镜检查的局限性，后者耗时长、成本高且延迟诊断。
探索长短期记忆（LSTM）网络在从原始音频中分类病理性语音障碍方面的有效性。
评估多种特征提取技术（MFCC、频谱质心、音高、频谱对比度）在提升分类准确率方面的表现。
证明LSTM能够有效建模语音信号中的时间依赖性，适用于临床筛查应用。

提出的方法

输入包含来自FEMH大数据杯挑战赛的400个语音样本，包括50个正常和150个病理性病例（声带创伤、肿瘤、声带麻痹）。
使用四种技术提取音频特征：13个MFCC、1个频谱质心、12个音高特征和13个频谱对比度特征，每样本共33个特征。
使用具有两层隐藏层（128和32个神经元）和一个输出层（4个类别：正常、声带创伤、肿瘤、声带麻痹）的LSTM网络进行分类。
使用Adam优化器和分类交叉熵损失进行训练，并通过500和5000个训练周期的实验评估收敛性。
特征预处理包括归一化，并将音频分割为4秒片段，采样率为22,050 Hz。
该架构利用LSTM捕捉语音序列数据中长期时间依赖性的能力，相较于传统机器学习模型，提升了分类性能。

实验结果

研究问题

RQ1LSTM模型是否能有效从原始音频中分类病理性语音障碍，而无需依赖标记的临床数据？
RQ2不同组合的音频特征（MFCC、频谱质心、音高、频谱对比度）如何影响基于LSTM的语音障碍检测性能？
RQ3在使用LSTM进行语音障碍检测时，实现稳定且高性能分类的最优训练周期数和批量大小是多少？
RQ4该模型在不同语音障碍类型中的敏感度和特异度表现如何，特别是在区分正常语音与病理性语音方面？
RQ5LSTM在语音信号中学习有意义的时间模式的程度如何，能否超越传统机器学习方法提升检测性能？

主要发现

LSTM模型实现了97.1%的特异度，表明在正确识别正常语音样本为健康方面表现优异。
敏感度为22%，表明仅22%的实际病理性语音病例被正确检测，凸显了在异常病例召回方面的关键局限。
未加权平均召回率（UAR）达到56%，反映出各类别之间性能的平衡性，且在将训练周期从500增加到5000后观察到性能提升。
该模型的特异度高于敏感度，表明其在排除疾病方面比检测疾病更可靠。
使用MFCC、频谱质心、音高和频谱对比度的特征提取共同构成了一个稳健的33维输入向量，增强了模型的泛化能力。
结果表明，LSTM是语音障碍检测的一种可行方法，但需进一步进行超参数调优和数据增强以提升敏感度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。