Skip to main content
QUICK REVIEW

[论文解读] COVID-19 Patient Detection from Telephone Quality Speech Data

Kotra Venkata Sai Ritwik, Shareef Babu Kalluri|arXiv (Cornell University)|Nov 9, 2020
COVID-19 diagnosis using AI参考文献 15被引用 29
一句话总结

本研究提出一种机器学习系统,通过从电话质量语音中提取的音素级梅谱图后验概率生成的超向量特征,实现对COVID-19的检测。该系统在基于YouTube的小规模数据集上进行训练,支持向量机(SVM)分类器达到88.6%的准确率和92.7%的F1分数,其中鼻音、塞音和中元音被识别为最具判别力的音素类别。

ABSTRACT

In this paper, we try to investigate the presence of cues about the COVID-19 disease in the speech data. We use an approach that is similar to speaker recognition. Each sentence is represented as super vectors of short term Mel filter bank features for each phoneme. These features are used to learn a two-class classifier to separate the COVID-19 speech from normal. Experiments on a small dataset collected from YouTube videos show that an SVM classifier on this dataset is able to achieve an accuracy of 88.6% and an F1-Score of 92.7%. Further investigation reveals that some phone classes, such as nasals, stops, and mid vowels can distinguish the two classes better than the others.

研究动机与目标

  • 开发一种仅依赖电话通话语音信号的远程、非侵入性COVID-19筛查方法。
  • 探究是否能通过计算方法在低质量语音中检测出由COVID-19引起的呼吸系统影响所导致的细微语音变化。
  • 从公开的YouTube录音中创建COVID-19阳性与阴性发声者的数据集。
  • 评估机器学习模型在使用语音语句级特征识别COVID-19状态方面的性能。
  • 识别在COVID-19检测中携带最多判别信息的音素类别。

提出的方法

  • 从电话质量的语音信号中提取短时梅谱图特征。
  • 使用预训练的ASpIRE链式模型(一种TDNN)从梅谱图输入中估计帧级音素后验概率。
  • 对每个音素的后验概率计算归一化的一阶统计量,形成语句级的超向量。
  • 将所有音素的超向量拼接,形成每个语句的单一高维特征向量。
  • 在超向量特征上训练支持向量机(SVM)分类器,以区分COVID-19阳性与阴性语音。
  • 通过交叉验证和独立测试集评估性能,并对单个音素类别进行消融分析。

实验结果

研究问题

  • RQ1机器学习模型能否在不依赖咳嗽或呼吸模式的情况下,从低质量电话语音中检测出COVID-19?
  • RQ2哪些音素类别在区分COVID-19阳性与阴性发声者方面表现出最强的判别能力?
  • RQ3该模型的性能是否能从交叉验证泛化到独立测试集?
  • RQ4与使用全部音素相比,聚焦于特定音素子类别是否能提升检测性能?
  • RQ5在COVID-19检测背景下,敏感性和特异性在不同音素类别中的变化程度如何?

主要发现

  • SVM分类器在来自7名说话者的201个语句的独立测试集上达到88.6%的准确率和92.7%的F1分数。
  • 鼻音、塞音和中元音为表现最佳的音素类别,在交叉验证中的F1分数分别为84.06%、80.23%和73.91%。
  • 在单独测试各音素类别时,系统对鼻音的准确率为91.8%,对塞音为90.1%,对中元音为91.1%,对应的F1分数分别为92.6%、92.7%和93.1%。
  • 在测试集上,全数据集的特异性和敏感性分别为0.73和0.93,表明对阳性类别的表现较强。
  • 前三类音素(鼻音、塞音、中元音)的ROC曲线显示AUC优于全音素集合,证实了其判别能力。
  • 仅有约40%的测试集包含前三类音素,但其性能仍占优势,表明即使覆盖率有限,系统仍具鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。