QUICK REVIEW

[論文レビュー] COVID-19 Patient Detection from Telephone Quality Speech Data

Kotra Venkata Sai Ritwik, Shareef Babu Kalluri|arXiv (Cornell University)|Nov 9, 2020

COVID-19 diagnosis using AI参考文献 15被引用数 29

ひとこと要約

本研究では、音素レベルのメルスペクトル後ろ向き確率から導出されたスーパー・ベクトル特徴を用いて、電話品質の音声からCOVID-19を検出する機械学習システムを提案する。YouTubeベースの小規模データセットで訓練されたSVM分類器は、88.6%の正解率と92.7%のF1スコアを達成し、鼻音、停止音、中母音が最も判別能の高い音素クラスであることが明らかになった。

ABSTRACT

In this paper, we try to investigate the presence of cues about the COVID-19 disease in the speech data. We use an approach that is similar to speaker recognition. Each sentence is represented as super vectors of short term Mel filter bank features for each phoneme. These features are used to learn a two-class classifier to separate the COVID-19 speech from normal. Experiments on a small dataset collected from YouTube videos show that an SVM classifier on this dataset is able to achieve an accuracy of 88.6% and an F1-Score of 92.7%. Further investigation reveals that some phone classes, such as nasals, stops, and mid vowels can distinguish the two classes better than the others.

研究の動機と目的

電話通話からの音声信号のみを用いて、遠隔的で非侵襲的なCOVID-19スクリーニング手法を開発すること。
COVID-19の呼吸器への影響による微細な発声変化が、低品質な音声において計算的に検出可能かどうかを調査すること。
公開可能なYouTube録画データから、COVID-19陽性および陰性の発話者を含むデータセットを作成すること。
音声からの発話レベル特徴を用いて、COVID-19状態を識別する機械学習モデルの性能を評価すること。
COVID-19検出において、最も判別能の高い情報を提供する音素クラスを特定すること。

提案手法

電話品質の音声信号から短時間のメルスペクトル特徴を抽出する。
事前学習済みのASpIREチェーンモデル（TDNN）を用いて、メルスペクトル入力からフレームレベルの音素後ろ向き確率を推定する。
各音素ごとに後ろ向き確率の正規化された一次統計量を計算し、発話レベルのスーパー・ベクトルを形成する。
全音素にわたってスーパー・ベクトルを連結し、発話ごとに1つの高次元特徴ベクトルを構築する。
スーパー・ベクトル特徴を用いて、SVM分類器を訓練し、COVID-19陽性および陰性の音声を区別する。
交差検証と独立テストセットを用いて性能を評価し、個々の音素クラスに対するアブレーション解析を実施する。

実験結果

リサーチクエスチョン

RQ1機械学習モデルは、咳や呼吸パターンに依存せずに、低品質な電話音声からCOVID-19を検出可能か？
RQ2どの音素クラスがCOVID-19陽性者と陰性者を区別する際に最も強い判別力を示すか？
RQ3モデルの性能は交差検証から独立テストセットへと一般化可能か？
RQ4全音素を用いるのではなく、特定の音素サブクラスに焦点を当てることで、検出性能が向上するか？
RQ5COVID-19検出の文脈において、感度と特異度が異なる音素クラスでどの程度変動するか？

主な発見

SVM分類器は、7人の発話者からなる201発話の独立テストセットで88.6%の正解率と92.7%のF1スコアを達成した。
鼻音、停止音、中母音が最も優れた性能を示す音素クラスであり、交差検証ではF1スコアがそれぞれ84.06%、80.23%、73.91%であった。
個々の音素クラスでテストしたところ、鼻音では91.8%の正解率、停止音では90.1%、中母音では91.1%を達成し、それぞれF1スコアは92.6%、92.7%、93.1%であった。
テストセットにおける全データセットの特異度と感度は、それぞれ0.73と0.93であり、陽性クラスに対して優れた性能を示した。
上位3つの音素クラス（鼻音、停止音、中母音）のROC曲線は、全音素セットよりも高いAUCを示し、その判別能の高さを裏付けた。
テストセットの約40%しか上位3つの音素クラスを含まないにもかかわらず、依然として優れた性能を示したため、カバレッジが限られてもモデルのロバスト性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。