Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Transfer Learning based COVID-19 Detection in Cough, Breath and Speech using Bottleneck Features

Madhurananda Pahar, Thomas Niesler|arXiv (Cornell University)|2021. 04. 02.
COVID-19 diagnosis using AI참고 문헌 22인용 수 2
한 줄 요약

이 연구는 사전 훈련된 모델에서 추출한 블로킹 포인트 특징을 사용하여 스마트폰에서 기록한 기침, 숨결, 말하기 음성에서 코로나19를 탐지하기 위한 딥 트랜스퍼 러닝 접근법을 제안한다. 코스와라 데이터셋의 기침에 대해 ResNet50을 사용할 때 최고의 AUC 0.98를 달성하였으며, 이는 인간의 귀로는 감지할 수 없지만 기계 학습을 통해 소비자용 스마트폰에서 식별 가능한 코로나19 서명이 음성, 특히 기침 소리에 포함되어 있음을 시사한다.

ABSTRACT

We present an experimental investigation into the automatic detection of COVID-19 from coughs, breaths and speech as this type of screening is non-contact, does not require specialist medical expertise or laboratory facilities and can easily be deployed on inexpensive consumer hardware. Smartphone recordings of cough, breath and speech from subjects around the globe are used for classification by seven standard machine learning classifiers using leave-$p$-out cross-validation to provide a promising baseline performance. Then, a diverse dataset of 10.29 hours of cough, sneeze, speech and noise audio recordings are used to pre-train a CNN, LSTM and Resnet50 classifier and fine tuned the model to enhance the performance even further. We have also extracted the bottleneck features from these pre-trained models by removing the final-two layers and used them as an input to the LR, SVM, MLP and KNN classifiers to detect COVID-19 signature. The highest AUC of 0.98 was achieved using a transfer learning based Resnet50 architecture on coughs from Coswara dataset. The highest AUC of 0.94 and 0.92 was achieved from an SVM run on the bottleneck features extracted from the breaths from Coswara dataset and speech recordings from ComParE dataset. We conclude that among all vocal audio, coughs carry the strongest COVID-19 signature followed by breath and speech and using transfer learning improves the classifier performance with higher AUC and lower variance across the cross-validation folds. Although these signatures are not perceivable by human ear, machine learning based COVID-19 detection is possible from vocal audio recorded via smartphone.

연구 동기 및 목표

  • 스마트폰을 통해 기록한 음성 자료를 이용해 비침습적이고 저비용이며 확장 가능한 코로나19 탐지 방법을 개발하기.
  • 기침, 숨결, 말하기 소리에 인간의 귀로는 감지할 수 없지만 코로나19의 생리적 서명이 포함되어 있는지 조사하기.
  • 다양한 음성 데이터로 사전 훈련하고 목표 데이터셋에서 미세 조정함으로써 트랜스퍼 러닝을 활용해 분류 성능 향상시키기.
  • 딥 네URAL 네트워크의 블로킹 포인트 특징을 전통적 분류기의 입력으로 사용할 경우 코로나19 탐지에 얼마나 효과적인지 평가하기.
  • 기침, 숨결, 말하기와 같은 다양한 음성 모odal리티의 진단 잠재력 비교하기 — 코로나19 식별에 있어 어느 것이 더 효과적인지 파악하기.

제안 방법

  • 기침, 재채기, 말하기, 잡음 등 총 10.29시간 분량의 다양한 음성 데이터셋을 사용해 CNN, LSTM, ResNet50를 사전 훈련하여 트랜스퍼 러닝 수행.
  • 코로나19 탐지에 적합하도록 타겟 데이터셋(Coswara: 기침과 숨결, ComParE: 말하기)에서 사전 훈련된 모델을 미세 조정.
  • 사전 훈련된 모델의 최종 두 레이어를 제거하여 고수준 표현을 캡처하는 블로킹 포인트 특징 추출.
  • 블로킹 포인트 특징을 입력으로 사용해 일곱 가지 표준 분류기(Logistic Regression, SVM, MLP, KNN)를 활용한 분류 수행.
  • 모든 폴드에서의 성능 추정을 보다 견고하게 하기 위해 leave-p-out 교차 검증 적용.
  • 진단 정확도와 분산을 평가하기 위해 주요 평가 지표로 AUC 사용.

실험 결과

연구 질문

  • RQ1딥 트랜스퍼 러닝은 기침, 숨결, 말하기와 같은 음성 기록에서 코로나19 탐지에 향상된 성능을 이끌 수 있는가?
  • RQ2기침, 숨결, 말하기 중 어떤 음성 모달리티가 가장 강력한 코로나19 서명을 담고 있는가?
  • RQ3사전 훈련된 딥 네URAL 네트워크의 블로킹 포인트 특징은 엔드 투 엔드 훈련 대비 성능과 안정성 측면에서 어떻게 비교되는가?
  • RQ4트랜스퍼 러닝은 다양한 피험자 그룹 간 교차 검증 성능의 분산을 줄이는가?
  • RQ5의료 전문 지식이나 실험실 시설 없이도 스마트폰으로 기록한 음성 자료를 활용해 코로나19를 높은 정확도로 탐지할 수 있는가?

주요 결과

  • 코스와라 데이터셋의 기침 기록에서 트랜스퍼 러닝 기반 ResNet50 모델을 사용할 때 최고의 AUC 0.98를 달성하였다.
  • 사전 훈련된 모델의 블로킹 포인트 특징을 사용한 SVM 분류기가 코스와라 데이터셋의 숨결 기록에서 AUC 0.94를 기록하였다.
  • 사전 훈련된 모델의 블로킹 포인트 특징을 사용한 SVM 분류기가 컴파레 데이터셋의 말하기 기록에서 AUC 0.92를 기록하였다.
  • 기침이 모든 음성 모달리티 중 가장 강력한 감지 가능한 코로나19 서명을 지닌 것으로 밝혀졌으며, 그 다음으로 숨결, 말하기 순이었다.
  • 트랜스퍼 러닝은 기준 모델 대비 분류기 성능을 크게 향상시키고 교차 검증 폴드 간 분산을 감소시켰다.
  • 연구는 인간의 귀로는 들을 수 없지만 머신 러닝을 통해 높은 정확도로 코로나19를 탐지할 수 있음을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.