Skip to main content
QUICK REVIEW

[논문 리뷰] The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & Primates

Björn W. Schuller, Anton Batliner|arXiv (Cornell University)|2021. 02. 24.
Speech Recognition and Synthesis참고 문헌 31인용 수 34
한 줄 요약

이 논문은 INTERSPEECH 2021 계산적 비언어학 챌린지를 소개하며, 코로나19 기침 및 음성 분류, 대화 급격화 탐지, 원숭이 종 식별의 네 가지 새로운 하위 챌린지를 제안한다. 다양한 접근 방식—COMPARE, BoAW, AUDEEP, DEEP SPECTRUM, 그리고 엔드 투 엔드 딥 러닝—을 평가하여 각각 CCS, CSS, ESS, PRS에 대해 UAR 기준 73.9%, 72.1%, 59.8%, 87.46%의 베이스라인 성능를 달성하였으며, 재현 가능한 스크립트와 무작위 평균 재현율을 사용한 엄격한 평가를 실시하였다.

ABSTRACT

The INTERSPEECH 2021 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the COVID-19 Cough and COVID-19 Speech Sub-Challenges, a binary classification on COVID-19 infection has to be made based on coughing sounds and speech; in the Escalation SubChallenge, a three-way assessment of the level of escalation in a dialogue is featured; and in the Primates Sub-Challenge, four species vs background need to be classified. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the 'usual' COMPARE and BoAW features as well as deep unsupervised representation learning using the AuDeep toolkit, and deep feature extraction from pre-trained CNNs using the Deep Spectrum toolkit; in addition, we add deep end-to-end sequential modelling, and partially linguistic analysis.

연구 동기 및 목표

  • 코로나19 기침 및 음성 신호를 통한 감염 탐지, 대화 급격화 평가, 원숭이 종 분류의 네 가지 새로운 도메인에서 표준화되고 재현 가능한 벤치마크를 확립하기 위해.
  • 표준 특징(COMPARE, BoAW), 딥 러닝 기반 비지도 학습(AUDEEP), 사전 훈련된 CNN(DEEP SPECTRUM) 및 엔드 투 엔드 시퀀스 모델링을 활용한 개방형 재현 가능한 기준을 제공하기 위해.
  • 사전 정의된 훈련/검증/테스트 분할, 하위 챌린지당 최대 5회의 테스트 제출, 동료 검토를 통한 논문 발표 요구 조건을 통해 공정한 평가를 가능하게 하기 위해.
  • 다양한 특징 추출 및 모델링 기법을 제공함으로써 혁신을 촉진하면서도, 블라인드 테스트 세트 스코어링를 통해 평가의 무결성을 유지하기 위해.

제안 방법

  • 참가자들은 전통적 특징(COMPARE, BoAW), AUDEEP 툴킷 통한 딥 레이어드 표현 학습, DEEP SPECTRUM 툴킷 통한 사전 훈련된 CNN을 활용하여 음성 표현을 추출하였다.
  • 원시 웨이브폼에서 시간적 동역학을 포착하기 위해 3층의 컨볼루션 네트워크와 2층의 GRU를 조합한 엔드 투 엔드 시퀀셜 모델링을 구현하였다.
  • 음성은 100ms의 청크로 분할되었으며(PR S의 경우 70ms), 16kHz 단일 채널로 정규화되었으며, 특징은 scikit-learn의 MINMAXSCALER를 사용해 스케일링되었다.
  • 최적화된 C를 가진 선형 SVM 분류기가 모든 특징 유형에 대해 훈련되었으며, 모델 선택은 개발 세트 성능에 기반하였다.
  • 베이스라인 성능는 개발 데이터에 대한 과적합을 방지하기 위해 개발 성능가 아니라 테스트 성능의 최고값을 기준으로 결정되었다.
  • 신뢰구간은 테스트 데이터 기반 1000회 부트스트랩 리샘플링과 훈련+개발 데이터 기반 100회 리샘플링을 통해 계산되었으며, 결과는 슬래시 앞뒤로 각각 보고되었다.

실험 결과

연구 질문

  • RQ1실세계의 커뮤니티 기반 환경에서 기침 및 음성 신호를 활용한 음성 기반 코로나19 감염 분류가 신뢰할 만한 성능를 달성할 수 있는가?
  • RQ2전통적 및 딥 러닝 기반 음성 표현 기법은 인간 대화에서 급격화 수준을 탐지하는 데 얼마나 효과적인가?
  • RQ3자연주의 음성 녹음에서 자동 시스템이 네 종의 원숭이 종과 배경 잡음 간을 정확히 구분할 수 있는가?
  • RQ4이러한 다양한 비언어학 작업에서 표준 및 고급 음성 특징 추출 및 모델링 기법의 성능 한계는 무엇인가?

주요 결과

  • 코로나19 기침 하위 챌린지에서 가장 높은 성능를 보인 베이스라인은 모델 융합을 통해 UAR 73.9%를 달성하였다.
  • 코로나19 음성 하위 챌린지의 베이스라인은 COMPARE 특징을 사용하여 UAR 72.1%를 기록하였으며, 음성 기반 선별의 잠재력을 시사하였다.
  • 급격화 하위 챌린지의 베이스라인은 BoAW 특징을 사용하여 UAR 59.8%를 달성하였으며, 미세한 급격화 수준을 분류하는 데서의 복잡성을 반영하였다.
  • 원숭이 하위 챌린지는 모델 융합 덕분에 가장 높은 베이스라인 UAR 87.46%를 기록하여 종 분류 작업에서 뛰어난 성능를 입증하였다.
  • 혼동 행렬 분석 결과, CCS 및 CSS에서 양성 케이스가 자주 음성으로 잘못 분류되는 경향이 나타나, 클래스 불균형 데이터 처리의 필요성을 시사하였다.
  • 부트스트랩 결과는 훈련 데이터의 변동성을 줄이면 약간의 테스트 성능 저하가 발생함을 보여주었으며, 이는 모델 선택 과정에서의 잠재적 과적합을 시사하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.