QUICK REVIEW

[논문 리뷰] The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & Primates

Björn W. Schuller, Anton Batliner|arXiv (Cornell University)|2021. 02. 24.

Speech Recognition and Synthesis참고 문헌 31인용 수 34

한 줄 요약

이 논문은 INTERSPEECH 2021 계산적 비언어학 챌린지를 소개하며, 코로나19 기침 및 음성 분류, 대화 급격화 탐지, 원숭이 종 식별의 네 가지 새로운 하위 챌린지를 제안한다. 다양한 접근 방식—COMPARE, BoAW, AUDEEP, DEEP SPECTRUM, 그리고 엔드 투 엔드 딥 러닝—을 평가하여 각각 CCS, CSS, ESS, PRS에 대해 UAR 기준 73.9%, 72.1%, 59.8%, 87.46%의 베이스라인 성능를 달성하였으며, 재현 가능한 스크립트와 무작위 평균 재현율을 사용한 엄격한 평가를 실시하였다.

ABSTRACT

The INTERSPEECH 2021 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the COVID-19 Cough and COVID-19 Speech Sub-Challenges, a binary classification on COVID-19 infection has to be made based on coughing sounds and speech; in the Escalation SubChallenge, a three-way assessment of the level of escalation in a dialogue is featured; and in the Primates Sub-Challenge, four species vs background need to be classified. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the 'usual' COMPARE and BoAW features as well as deep unsupervised representation learning using the AuDeep toolkit, and deep feature extraction from pre-trained CNNs using the Deep Spectrum toolkit; in addition, we add deep end-to-end sequential modelling, and partially linguistic analysis.

연구 동기 및 목표

코로나19 기침 및 음성 신호를 통한 감염 탐지, 대화 급격화 평가, 원숭이 종 분류의 네 가지 새로운 도메인에서 표준화되고 재현 가능한 벤치마크를 확립하기 위해.
표준 특징(COMPARE, BoAW), 딥 러닝 기반 비지도 학습(AUDEEP), 사전 훈련된 CNN(DEEP SPECTRUM) 및 엔드 투 엔드 시퀀스 모델링을 활용한 개방형 재현 가능한 기준을 제공하기 위해.
사전 정의된 훈련/검증/테스트 분할, 하위 챌린지당 최대 5회의 테스트 제출, 동료 검토를 통한 논문 발표 요구 조건을 통해 공정한 평가를 가능하게 하기 위해.
다양한 특징 추출 및 모델링 기법을 제공함으로써 혁신을 촉진하면서도, 블라인드 테스트 세트 스코어링를 통해 평가의 무결성을 유지하기 위해.

제안 방법

참가자들은 전통적 특징(COMPARE, BoAW), AUDEEP 툴킷 통한 딥 레이어드 표현 학습, DEEP SPECTRUM 툴킷 통한 사전 훈련된 CNN을 활용하여 음성 표현을 추출하였다.
원시 웨이브폼에서 시간적 동역학을 포착하기 위해 3층의 컨볼루션 네트워크와 2층의 GRU를 조합한 엔드 투 엔드 시퀀셜 모델링을 구현하였다.
음성은 100ms의 청크로 분할되었으며(PR S의 경우 70ms), 16kHz 단일 채널로 정규화되었으며, 특징은 scikit-learn의 MINMAXSCALER를 사용해 스케일링되었다.
최적화된 C를 가진 선형 SVM 분류기가 모든 특징 유형에 대해 훈련되었으며, 모델 선택은 개발 세트 성능에 기반하였다.
베이스라인 성능는 개발 데이터에 대한 과적합을 방지하기 위해 개발 성능가 아니라 테스트 성능의 최고값을 기준으로 결정되었다.
신뢰구간은 테스트 데이터 기반 1000회 부트스트랩 리샘플링과 훈련+개발 데이터 기반 100회 리샘플링을 통해 계산되었으며, 결과는 슬래시 앞뒤로 각각 보고되었다.

실험 결과

연구 질문

RQ1실세계의 커뮤니티 기반 환경에서 기침 및 음성 신호를 활용한 음성 기반 코로나19 감염 분류가 신뢰할 만한 성능를 달성할 수 있는가?
RQ2전통적 및 딥 러닝 기반 음성 표현 기법은 인간 대화에서 급격화 수준을 탐지하는 데 얼마나 효과적인가?
RQ3자연주의 음성 녹음에서 자동 시스템이 네 종의 원숭이 종과 배경 잡음 간을 정확히 구분할 수 있는가?
RQ4이러한 다양한 비언어학 작업에서 표준 및 고급 음성 특징 추출 및 모델링 기법의 성능 한계는 무엇인가?

주요 결과

코로나19 기침 하위 챌린지에서 가장 높은 성능를 보인 베이스라인은 모델 융합을 통해 UAR 73.9%를 달성하였다.
코로나19 음성 하위 챌린지의 베이스라인은 COMPARE 특징을 사용하여 UAR 72.1%를 기록하였으며, 음성 기반 선별의 잠재력을 시사하였다.
급격화 하위 챌린지의 베이스라인은 BoAW 특징을 사용하여 UAR 59.8%를 달성하였으며, 미세한 급격화 수준을 분류하는 데서의 복잡성을 반영하였다.
원숭이 하위 챌린지는 모델 융합 덕분에 가장 높은 베이스라인 UAR 87.46%를 기록하여 종 분류 작업에서 뛰어난 성능를 입증하였다.
혼동 행렬 분석 결과, CCS 및 CSS에서 양성 케이스가 자주 음성으로 잘못 분류되는 경향이 나타나, 클래스 불균형 데이터 처리의 필요성을 시사하였다.
부트스트랩 결과는 훈련 데이터의 변동성을 줄이면 약간의 테스트 성능 저하가 발생함을 보여주었으며, 이는 모델 선택 과정에서의 잠재적 과적합을 시사하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.