Skip to main content
QUICK REVIEW

[论文解读] Assessment Of Audio Features For Automatic Cough Detection

Thomas Drugman, Jérôme Urbain|arXiv (Cornell University)|Aug 29, 2011
Respiratory and Cough-Related Research参考文献 10被引用 40
一句话总结

该论文仅使用音频记录对105种音频特征进行自动咳嗽检测评估,采用基于互信息的特征选择方法及三种分类器(ANN、GMM、SVM)。最佳性能由使用20个优化特征的高斯混合模型(GMM)实现,达到95.2%的敏感度和94.3%的特异度,表明精简的特征集可实现高精度、客观的咳嗽检测,适用于呼吸系统疾病监测。

ABSTRACT

Publication in the conference proceedings of EUSIPCO, Barcelona, Spain, 2011

研究动机与目标

  • 开发一种基于音频记录的客观、自动化咳嗽检测方法,以支持囊性纤维化等呼吸系统疾病的临床评估。
  • 利用信息论度量识别最具区分性且非冗余的音频特征,用于咳嗽检测。
  • 在不同特征维度和复杂度下,比较人工神经网络(ANN)、高斯混合模型(GMM)和支持向量机(SVM)三种分类器的性能。
  • 通过基于互信息的特征选择方法降低特征维度,同时不牺牲检测准确性。
  • 为未来在多模态系统中实现真实环境中持续、动态的咳嗽监测提供支持。

提出的方法

  • 提取了包含105种音频特征的综合集合,分为频谱内容(如MFCC、频谱质心、频谱通量)、噪声度量(如HNR、CPP、频谱平坦度)以及与语调相关的特征(如能量、基频、过零率)。
  • 计算每个特征的一阶和二阶导数,以捕捉音频信号中的动态变化,增强时间敏感性。
  • 采用基于互信息的度量评估特征的重要性、冗余性和互补性,实现有效的特征选择。
  • 训练了三种分类器:隐藏层大小可变的人工神经网络(ANN)、可调成分数量的高斯混合模型(GMM),以及使用高斯核的支持向量机(SVM)。
  • 使用基于互信息的特征选择算法降低特征维度,仅保留最具信息量的特征。
  • 通过受试者工作特征(ROC)曲线和等错误率(EER)评估性能,报告最优配置下的真正率(TPR)和假正率(FPR)

实验结果

研究问题

  • RQ1在临床音频记录中,哪些音频特征对区分咳嗽与非咳嗽声音最具信息量且冗余度最低?
  • RQ2所选特征数量如何影响不同分类器在咳嗽检测中的性能?
  • RQ3在使用精简特征集时,哪种分类器——ANN、GMM或SVM——能达到最高的检测准确率?
  • RQ4在不降低检测性能的前提下,特征维度最多可降低到何种程度?
  • RQ5分类器复杂度(如神经元数量或高斯成分数量)如何影响检测准确率和泛化能力?

主要发现

  • 使用16个高斯成分和20个选定特征的高斯混合模型(GMM)达到最佳性能,真正率(TPR)为95.20%,假正率(FPR)为5.73%,等错误率(EER)为7.48%。
  • 仅使用20个特征(通过基于互信息的特征选择方法选出)即可实现与使用全部105个特征相当的性能,ANN的EER为7.94%,GMM的EER为7.48%。
  • 人工神经网络(ANN)在使用64个神经元和105个特征时,TPR为94.27%,FPR为5.50%,EER为7.94%,但尽管复杂度更高,其性能仍低于GMM。
  • 支持向量机(SVM)性能较差,TPR为81.87%,FPR为0.32%,EER高达18.13%,表明其在此任务中适用性有限。
  • 特征维度的降低显著提升了效率,且性能损失极小,20个特征在所有分类器中均实现了接近最优的结果。
  • 研究证实,GMM在基于音频的咳嗽检测中优于ANN和SVM,尤其在结合有效特征选择时表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。