QUICK REVIEW

[论文解读] Pay Attention to the cough: Early Diagnosis of COVID-19 using Interpretable Symptoms Embeddings with Cough Sound Signal Processing

Ankit Pal, Malaikannan Sankarasubbu|arXiv (Cornell University)|Oct 5, 2020

Respiratory and Cough-Related Research被引用 24

一句话总结

该论文提出了一种新颖的可解释人工智能框架，通过融合咳嗽声音信号处理、临床症状和人口统计学元数据，实现对COVID-19的早期、低成本且高精度诊断。该模型采用基于TabNet的架构，结合症状嵌入的注意力机制与先进的音频特征（如形式因子、峰度、熵），在来自150名患者的328例咳嗽样本数据集上，将COVID-19咳嗽与非COVID-19咳嗽（哮喘、支气管炎、健康）区分开来，取得了96.83%的准确率和95.04%的特异性。

ABSTRACT

COVID-19 (coronavirus disease 2019) pandemic caused by SARS-CoV-2 has led to a treacherous and devastating catastrophe for humanity. At the time of writing, no specific antivirus drugs or vaccines are recommended to control infection transmission and spread. The current diagnosis of COVID-19 is done by Reverse-Transcription Polymer Chain Reaction (RT-PCR) testing. However, this method is expensive, time-consuming, and not easily available in straitened regions. An interpretable and COVID-19 diagnosis AI framework is devised and developed based on the cough sounds features and symptoms metadata to overcome these limitations. The proposed framework's performance was evaluated using a medical dataset containing Symptoms and Demographic data of 30000 audio segments, 328 cough sounds from 150 patients with four cough classes ( COVID-19, Asthma, Bronchitis, and Healthy). Experiments' results show that the model captures the better and robust feature embedding to distinguish between COVID-19 patient coughs and several types of non-COVID-19 coughs with higher specificity and accuracy of 95.04 $\\pm$ 0.18% and 96.83$\\pm$ 0.18% respectively, all the while maintaining interpretability.

研究动机与目标

解决RT-PCR检测的局限性，其成本高、耗时长，且在资源匮乏地区难以获取。
克服现有基于咳嗽的AI模型仅依赖音频特征、忽略临床症状和人口统计数据的不足。
开发一种可解释的机器学习框架，整合多模态数据（咳嗽声音、症状、人口统计学信息），以提升诊断性能。
通过可访问的基于移动设备的音频采集和AI推理，实现早期、可扩展且非侵入性的COVID-19筛查。
通过注意力机制和特征重要性分析确保模型可解释性，以支持临床信任与采纳。

提出的方法

该框架采用混合深度学习架构，结合TabNet处理表格化症状与人口统计学数据，以及基于CNN的咳嗽信号音频特征提取。
咳嗽音频信号被分割为子段，并利用10项人工设计的声学特征进行分析：过零率、能量、频谱质心、频谱 flux、频谱滚降、频谱平坦度、偏度、峰度、熵以及形式因子频率（F1–F4）。
TabNet组件采用门控线性单元（GLU），结合幽灵批量归一化（Ghost Batch Normalization）和Sparsemax激活的注意力变压器，实现对症状和人口统计学变量的动态稀疏特征选择。
通过晚期交互机制融合音频与表格化表示，使注意力机制能够聚焦于每个预测步骤中最相关的临床与声学特征。
特征重要性通过TabNet的注意力变压器的注意力权重得出，从而通过突出显示对预测贡献最大的症状或音频特征，实现可解释性。
模型采用交叉熵损失函数配合标签平滑与早停策略进行端到端训练，优化方法为AdamW，并采用余弦退火学习率调度器。

实验结果

研究问题

RQ1与仅使用音频的模型相比，结合咳嗽音频特征与临床症状元数据的多模态深度学习模型是否能提升早期COVID-19诊断的准确性？
RQ2整合患者人口统计学信息与症状数据（如发热、呼吸困难）在多大程度上提升了模型区分COVID-19与非COVID-19咳嗽的能力？
RQ3注意力机制在识别分类咳嗽类型时最相关的临床与声学特征方面有多有效？这是否提升了模型的可解释性？
RQ4所提出的框架在多种咳嗽类型（如哮喘、支气管炎、健康）中是否保持高性能，同时具备鲁棒性与泛化能力？
RQ5仅使用智能手机录制的咳嗽和基本症状输入，该模型是否能在低资源环境中实现高特异性与高准确率？

主要发现

在保留的测试集上，该模型在区分COVID-19咳嗽与非COVID-19咳嗽（哮喘、支气管炎、健康）方面，测试准确率达到96.83% ± 0.18%，特异性达95.04% ± 0.18%。
与仅使用音频的基线模型相比，临床症状与人口统计学数据的引入显著提升了分类性能，表明模型能够捕捉超越声学特征的疾病特异性模式。
TabNet中的注意力机制成功识别出发热、呼吸困难和咳嗽持续时间等关键症状为预测的主要贡献因素，增强了模型的可解释性。
该模型在多种咳嗽类型中表现出鲁棒性，即使在区分支气管炎与哮喘等相似呼吸道疾病时也保持了高性能。
使用人工设计的音频特征（如形式因子、峰度、熵）提升了模型对病理咳嗽与健康咳嗽之间细微声学差异的敏感性。
通过注意力热力图验证了框架的可解释性，结果显示模型聚焦于临床相关特征（如发热与呼吸困难），与医学指南一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。