Skip to main content
QUICK REVIEW

[論文レビュー] The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & Primates

Björn W. Schuller, Anton Batliner|arXiv (Cornell University)|Feb 24, 2021
Speech Recognition and Synthesis参考文献 31被引用数 34
ひとこと要約

本論文は、COVID-19咳嗽および音声分類、対話のエスカレーション検出、霊長目種別認識の4つの新しいサブチャレンジを導入するINTERSPEECH 2021計算的身体言語チャレンジを提示する。COMPARE、BoAW、AUDEEP、DEEP SPECTRUM、およびエンドツーエンドのディープラーニングを含む複数のアプローチを評価し、再現可能で明確なスクリプトとunweighted average recall(UAR)を用いた厳密な評価により、ベースラインUARスコアを73.9%(CCS)、72.1%(CSS)、59.8%(ESS)、87.46%(PRS)で達成した。

ABSTRACT

The INTERSPEECH 2021 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the COVID-19 Cough and COVID-19 Speech Sub-Challenges, a binary classification on COVID-19 infection has to be made based on coughing sounds and speech; in the Escalation SubChallenge, a three-way assessment of the level of escalation in a dialogue is featured; and in the Primates Sub-Challenge, four species vs background need to be classified. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the 'usual' COMPARE and BoAW features as well as deep unsupervised representation learning using the AuDeep toolkit, and deep feature extraction from pre-trained CNNs using the Deep Spectrum toolkit; in addition, we add deep end-to-end sequential modelling, and partially linguistic analysis.

研究の動機と目的

  • COVID-19の咳嗽および音声による検出、対話のエスカレーション評価、霊長目種別分類の4つの新しい分野における、標準化され、再現可能なベンチマークを確立すること。
  • 標準特徴(COMPARE、BoAW)、ディープラーニングによる教師なし表現学習(AUDEEP)、事前学習済み畳み込みニューラルネットワーク(DEEP SPECTRUM)を用いたオープンで再現可能なベースラインを提供すること。加えて、エンドツーエンドのシーケンスモデリングも含む。
  • 事前に定義された訓練/開発/テスト分割、サブチャレンジごとに5回のテスト提出、および共同レビュー付き出版要件を用いることで、公平な評価を可能にすること。
  • 多様な特徴抽出およびモデリング手法を提供することでイノベーションを促進し、盲検テストセットスコアを用いて評価の整合性を保つこと。

提案手法

  • 参加者は、従来の特徴(COMPARE、BoAW)、AUDEEPツールキットによるディープ表現学習、DEEP SPECTRUMツールキットによる事前学習済み畳み込みニューラルネットワークを用いて音声表現を取得した。
  • エンドツーエンドの時系列モデリングは、原始波形からの時間的ダイナミクスを捉えるために、3層の畳み込みネットワークに続く2層のGRUを用いて実装された。
  • 音声は100 msのチャンク(PRS用は70 ms)に分割され、16 kHzモノに正規化され、scikit-learnのMINMAXSCALERを用いて特徴量がスケーリングされた。
  • 最適化されたCを用いた線形SVM分類器を、すべての特徴タイプに対して訓練し、開発セットの性能に基づいてモデル選択が行われた。
  • ベースライン成績は、開発データへの過学習を防ぐために、開発性能ではなくテスト性能の最高値に基づいて決定された。
  • 信頼区間は、テストデータに対して1000回のブートストラップリサンプリング、トレーニング+開発データに対して100回のリサンプリングを実施し、スラッシュの前後で両方の結果を報告した。

実験結果

リサーチクエスチョン

  • RQ1実世界のクラウドソーシング環境において、咳と音声信号に基づくCOVID-19感染の分類が、信頼性のある性能を達成できるか?
  • RQ2従来の手法とディープラーニングベースの音声表現は、人間の対話におけるエスカレーションレベルの検出にどの程度効果的か?
  • RQ3自然な記録において、自動システムは4種類の霊長目種と背景ノイズを正確に区別できるか?
  • RQ4これらの多様な身体言語的タスクにおいて、標準的および高度な音声特徴抽出およびモデリング手法の性能の上限はどの程度か?

主な発見

  • COVID-19咳嗽サブチャレンジで最も優れたベースラインは、複数のモデルの融合によりUAR 73.9%を達成した。
  • COVID-19音声サブチャレンジのベースラインは、COMPARE特徴を用いてUAR 72.1%を達成し、音声ベースのスクリーニングの強力な可能性を示した。
  • エスカレーションサブチャレンジのベースラインは、BoAW特徴を用いてUAR 59.8%を達成し、微細なエスカレーションレベルを分類する複雑さを反映していた。
  • 霊長目サブチャレンジは、モデルの融合により最高のベースラインUAR 87.46%を達成し、種別分類における優れた性能を示した。
  • 混同行列の分析から、CCSおよびCSSの陽性例が頻繁に陰性と誤分類されていることが判明し、クラス不均衡データの処理が求められることが示唆された。
  • ブートストラップの結果から、トレーニングデータのばらつきを低減すると、わずかにテスト性能が低下したことが判明し、モデル選択における過学習の可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。