[论文解读] The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & Primates
本论文介绍了 INTERSPEECH 2021 计算性语用学挑战赛,引入了四个新颖的子挑战:基于咳嗽与语音的 COVID-19 分类、对话升级检测以及灵长类物种识别。该研究评估了多种方法——包括 COMPARE、BoAW、AUDEEP、DEEP SPECTRUM 以及端到端深度学习——在未加权平均召回率(UAR)方面取得了基线分数:73.9%(CCS)、72.1%(CSS)、59.8%(ESS)和 87.46%(PRS),并提供了可复现的脚本,通过使用未加权平均召回率进行严格评估。
The INTERSPEECH 2021 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the COVID-19 Cough and COVID-19 Speech Sub-Challenges, a binary classification on COVID-19 infection has to be made based on coughing sounds and speech; in the Escalation SubChallenge, a three-way assessment of the level of escalation in a dialogue is featured; and in the Primates Sub-Challenge, four species vs background need to be classified. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the 'usual' COMPARE and BoAW features as well as deep unsupervised representation learning using the AuDeep toolkit, and deep feature extraction from pre-trained CNNs using the Deep Spectrum toolkit; in addition, we add deep end-to-end sequential modelling, and partially linguistic analysis.
研究动机与目标
- 在四个新颖领域建立标准化、可复现的计算性语用学基准:通过咳嗽与语音信号检测 COVID-19、评估对话升级水平、分类灵长类物种。
- 提供开放、可复现的基线,采用标准特征(COMPARE、BoAW)、无监督深度学习(AUDEEP)以及预训练卷积神经网络(DEEP SPECTRUM),并结合端到端序列建模方法。
- 通过预定义的训练/验证/测试集划分、每个子挑战五次测试提交以及同行评审发表要求,实现公平评估。
- 通过提供多样化的特征提取与建模技术,同时通过盲测集评分保持评估完整性,促进创新。
提出的方法
- 参赛者结合使用传统特征(COMPARE、BoAW)、通过 AUDEEP 工具包进行深度表征学习,以及通过 DEEP SPECTRUM 工具包使用预训练卷积神经网络进行音频表征。
- 端到端序列建模采用三层卷积网络后接两层门控循环单元(GRU)以捕捉原始波形的时间动态特性。
- 音频被分割为 100 ms 块(PRS 为 70 ms),经归一化处理为 16 kHz 单声道,并使用 scikit-learn 中的 MINMAXSCALER 对特征进行缩放。
- 在线性支持向量机(SVM)分类器上训练所有特征类型,其中正则化参数 C 经优化,模型选择基于验证集上的性能表现。
- 基线结果通过各方法在测试集上的最高性能确定,而非验证集性能,以防止对验证数据的过拟合。
- 置信区间通过在测试数据上进行 1000 次自助抽样、在训练+验证数据上进行 100 次自助抽样计算得出,结果以斜杠前后的形式报告。
实验结果
研究问题
- RQ1在真实世界、众包环境中,基于音频的 COVID-19 感染分类(利用咳嗽与语音信号)能否实现可靠性能?
- RQ2传统与基于深度学习的音频表征在检测人类对话中升级水平方面的有效性如何?
- RQ3自动系统能否在自然录音中准确区分四种灵长类物种与背景噪声?
- RQ4在这些多样化的语用学任务中,标准与先进音频特征提取及建模技术的性能上限是什么?
主要发现
- 在 COVID-19 咳嗽子挑战赛中,最佳基线模型实现了 73.9% 的 UAR,主要得益于多种模型的融合。
- COVID-19 语音子挑战赛的基线模型达到 72.1% 的 UAR,使用 COMPARE 特征,表明基于语音的筛查具有强大潜力。
- 升级子挑战赛的基线模型使用 BoAW 特征实现了 59.8% 的 UAR,反映出对细微升级水平分类的复杂性。
- 灵长类子挑战赛的基线模型实现了最高的 UAR(87.46%),通过模型融合实现,表明在物种分类方面表现优异。
- 混淆矩阵显示,CCS 和 CSS 中的阳性病例常被误分类为阴性,提示需要针对类别不平衡数据进行处理。
- 自助抽样结果表明,减少训练数据的变异性导致测试性能略有下降,表明在模型选择过程中可能存在过拟合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。