QUICK REVIEW

[논문 리뷰] An Overview on Audio, Signal, Speech, & Language Processing for COVID-19

Gauri Deshpande, Björn W. Schuller|arXiv (Cornell University)|2020. 05. 18.

COVID-19 diagnosis using AI참고 문헌 32인용 수 71

한 줄 요약

이 논문은 코로나19 극복을 위한 음성, 말 및 신호 처리 기술을 검토하며, 기침과 호흡 분석을 통한 조기 증상 탐지, 스트레스 및 정신 건강 모니터링, 그리고 대중 인식 향상을 위한 AI 기반 챗봇에 초점을 맞춘다. 특히 MFCC, ZCR, 에너지 등의 음성 특징을 활용한 딥러닝 모델(CNN, SVM 등)이 기침 탐지에서 최대 94.6% AUC, 호흡 이벤트 탐지에서 91.2% 민감도를 기록했다.

ABSTRACT

Recently, there has been an increased attention towards innovating, enhancing, building, and deploying applications of speech signal processing for providing assistance and relief to human mankind from the Coronavirus (COVID-19) pandemic. Many AI with speech initiatives are taken to combat with the present situation and also to create a safe and secure environment for the future. This paper summarises all these efforts taken by the re-search community towards helping the individuals and the society in the fight against COVID-19 over the past 3-4 months using speech signal processing. We also summarise the deep techniques used in this direction to come up with capable solutions in a short span of time. This paper further gives an overview of the contributions from non-speech modalities that may complement or serve as inspiration for audio and speech analysis. In addition, we discuss our observations with respect to solution usability, challenges, and the significant technology achievements.

연구 동기 및 목표

최근 음성 및 말 신호 처리 기술의 발전을 요약하여 코로나19 증상의 조기 탐지 및 모니터링에 기여하고자 한다.
기계 학습 및 딥러닝 모델이 호흡 및 심리적 지표를 분석하는 데 있어 효과적인지 평가하고자 한다.
사회적 거리 두기 및 위생 제약 조건 하에서의 데이터 수집, 모델 신뢰성 및 사용성 문제를 규명하고자 한다.
다중 모odal 접근법(음성, 텍스트, 영상 처리 통합)이 종합적인 패닉 대응 솔루션을 제공하는 데 어떻게 기여할 수 있는지 탐색하고자 한다.
향후 연구를 이끌기 위해 핵심 기술적 성취, 사용성 문제 및 임상 통합 필요성을 제시하고자 한다.

제안 방법

음성 분류를 위해 STFT, MFCC, MFB 및 에너지 특징을 활용한 스펙트로그램 기반 분석을 수행하였다.
기침, 호흡 패턴 및 말 기반 생체지표 탐지를 위해 CNN, RNN 및 라디얼 기저 함수 커널을 사용한 SVM 등의 딥러닝 모델을 적용하였다.
전체 음성 기록 없이도 개인정보 보호를 확보하기 위해 주성분 분석(PCA)과 랜덤 포레스트 분류기를 사용하여 기침을 탐지하였다.
정서 컴퓨팅 및 스트레스 탐지에 활용하기 위해 功能적 및 저수준 음향 특징(Low-Level Features, LLDs)을 통합하였다.
학습 및 검증을 위해 Google Audio Set, Freesound 및 WatchPAT과 같은 기존 데이터셋을 활용하였다.
공공 보건 모니터링을 향상시키기 위해 음성, 텍스트 및 영상 처리를 통합한 다중 모달 프레임워크(예: 마스크 착용 감지)를 탐색하였다.

실험 결과

연구 질문

RQ1기침과 비정상적인 호흡 패턴과 같은 코로나19 조기 호흡기 증상 탐지에 있어 음성 및 말 신호 처리 기술의 효과는 어떠한가?
RQ2감염의 생리적 및 심리적 지표를 식별하기 위해 말을 분석하는 데 사용되는 주요 기계 학습 및 딥러닝 모델은 무엇인가?
RQ3음성 기반 선별 시스템에 개인정보 보호 기법을 통합할 수 있는 방법은 무엇이며, 이로 인해 정확도가 저하되지 않도록 할 수 있는가?
RQ4팬데믹 기간 동안 AI 기반 챗봇 및 모니터링 시스템을 구현할 때 발생하는 사용성 및 윤리적 과제는 무엇인가?
RQ5다중 모달 접근법(음성, 텍스트, 영상)을 통해 디지털 헬스 솔루션의 신뢰성과 내구성을 어떻게 향상시킬 수 있는가?

주요 결과

MFCC 및 MFB 특징을 사용한 CNN 기반 모델이 음성 데이터에서 결핵 기침을 탐지하는 데 94.6% AUC를 기록하여 호흡기 질환 선별의 잠재적 가능성을 보여주었다.
MFCC, 에너지, 피치 및 ZCR 특징을 활용한 SVM 기반 시스템이 말에서 잠재적 수면 무호흡증을 탐지하는 데 코HEN의 카파 계수 0.54를 기록하여 중간 정도이지만 유망한 분류 성능을 보였다.
스펙트로그램에 대한 PCA와 랜덤 포레스트를 활용한 개인정보 보호 기법이 전체 음성 기록 없이도 기침 탐지에서 92%의 참 양성률과 오직 0.5%의 참 음성률을 기록하여 효과적인 보안 솔루션을 제공하였다.
CNN-RNN 모델이 대화 중 말하기 동안 호흡 이벤트 탐지에 91.2%의 민감도와 분당 평균 절대 오차 1.01을 기록하였다.
음성 인식 및 합성 기반 챗봇이 중요한 건강 정보를 널리 홍보하고 혈액 수혈 기부 등록을 지원하였으며, 마이크로소프트의 챗봇은 기부 센터에서 사용자 데이터 수집을 가능하게 하였다.
영상 처리를 활용한 마스크 감지 시스템이 95%의 정확도를 기록하여 공공 공간에서 시각적 감시를 음성 기반 건강 모니터링과 통합하는 것이 가능함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.