QUICK REVIEW

[论文解读] An Overview on Audio, Signal, Speech, & Language Processing for COVID-19

Gauri Deshpande, Björn W. Schuller|arXiv (Cornell University)|May 18, 2020

COVID-19 diagnosis using AI参考文献 32被引用 71

一句话总结

本文综述了用于应对新冠疫情的音频、语音和信号处理技术，重点聚焦于通过咳嗽和呼吸分析进行早期症状检测、压力与心理健康监测，以及利用人工智能驱动的聊天机器人提升公众意识。研究突出展示了卷积神经网络（CNN）和支持向量机（SVM）等深度学习模型在音频特征（如梅尔频率倒谱系数MFCC、过零率ZCR、能量）上的应用，咳嗽检测的曲线下面积AUC最高达94.6%，呼吸事件检测的灵敏度达91.2%。

ABSTRACT

Recently, there has been an increased attention towards innovating, enhancing, building, and deploying applications of speech signal processing for providing assistance and relief to human mankind from the Coronavirus (COVID-19) pandemic. Many AI with speech initiatives are taken to combat with the present situation and also to create a safe and secure environment for the future. This paper summarises all these efforts taken by the re-search community towards helping the individuals and the society in the fight against COVID-19 over the past 3-4 months using speech signal processing. We also summarise the deep techniques used in this direction to come up with capable solutions in a short span of time. This paper further gives an overview of the contributions from non-speech modalities that may complement or serve as inspiration for audio and speech analysis. In addition, we discuss our observations with respect to solution usability, challenges, and the significant technology achievements.

研究动机与目标

总结近期在音频与语音信号处理领域中用于早期检测和监测新冠肺炎症状的进展。
评估机器学习与深度学习模型在分析语音与音频以识别呼吸道及心理指标方面的有效性。
识别在社交距离与卫生限制条件下数据收集、模型可靠性及可用性方面面临的挑战。
探讨结合音频、文本与图像处理的多模态方法在综合疫情应对解决方案中的作用。
通过突出关键技术成就、可用性问题与临床整合需求，为未来研究提供指导。

提出的方法

采用基于短时傅里叶变换（STFT）、梅尔频率倒谱系数（MFCC）、梅尔频率倒谱倒谱（MFB）和能量特征的频谱图分析方法进行音频分类。
应用卷积神经网络（CNN）、循环神经网络（RNN）以及具有径向基函数核的SVM等深度学习模型，用于检测咳嗽、呼吸模式及基于语音的生物标志物。
使用主成分分析（PCA）与随机森林分类器检测咳嗽，通过不记录完整音频实现隐私保护。
整合功能特征与低层次声学特征（LLDs），用于语音中的情感计算与压力检测。
利用现有数据集（如Google Audio Set、Freesound和WatchPAT）进行模型训练与验证。
探索结合音频、文本与图像处理（如遮挡面部检测）的多模态框架，以增强公共卫生监测能力。

实验结果

研究问题

RQ1音频与语音信号处理技术在检测新冠肺炎早期呼吸道症状（如咳嗽与异常呼吸模式）方面效果如何？
RQ2在分析语音以识别感染的生理与心理指标时，所采用的关键机器学习与深度学习模型有哪些？
RQ3如何在不损害检测准确性的前提下，将隐私保护技术整合到基于音频的筛查系统中？
RQ4在疫情期间部署人工智能驱动的聊天机器人与监测系统时，面临哪些可用性与伦理挑战？
RQ5如何通过多模态方法（音频、文本、图像）提升数字健康解决方案在疫情应对中的可靠性与鲁棒性？

主要发现

基于CNN的模型结合MFCC与MFB特征，在从音频数据中检测结核性咳嗽时AUC达到94.6%，显示出在呼吸道疾病筛查方面的强大潜力。
基于SVM的系统结合MFCC、能量、基频与ZCR特征，在从语音中检测阻塞性睡眠呼吸暂停时Cohen’s kappa系数达0.54，表明分类性能中等但具前景。
采用PCA处理频谱图并结合随机森林的隐私保护方法，在不记录完整音频的前提下，实现92%的真正例率与仅0.5%的假正例率，有效检测咳嗽。
CNN-RNN模型在检测对话语音中的呼吸事件时，灵敏度达91.2%，平均绝对误差为1.01次/分钟。
由语音识别与语音合成技术驱动的聊天机器人成功传播关键健康信息，并协助完成血浆捐献登记，微软开发的聊天机器人实现了对捐献中心用户数据的收集。
基于图像处理的口罩检测准确率达95%，证明了将视觉监控与基于音频的健康监测整合到公共场所的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。