[論文レビュー] Deep Transfer Learning based COVID-19 Detection in Cough, Breath and Speech using Bottleneck Features
本研究では、事前学習済みモデルから抽出したボトルネック特徴量を用いて、スマートフォンで録音された咳、息、発声音声からCOVID-19を検出するためのディープ転移学習手法を提案する。Coswaraデータセットの咳音に対してResNet50を用いた場合、最高でAUC 0.98を達成した。これは、音声、特に咳音に、人間の耳では感知できないが機械学習によってスマートフォンで識別可能なCOVID-19の兆候が含まれていることを示している。
We present an experimental investigation into the automatic detection of COVID-19 from coughs, breaths and speech as this type of screening is non-contact, does not require specialist medical expertise or laboratory facilities and can easily be deployed on inexpensive consumer hardware. Smartphone recordings of cough, breath and speech from subjects around the globe are used for classification by seven standard machine learning classifiers using leave-$p$-out cross-validation to provide a promising baseline performance. Then, a diverse dataset of 10.29 hours of cough, sneeze, speech and noise audio recordings are used to pre-train a CNN, LSTM and Resnet50 classifier and fine tuned the model to enhance the performance even further. We have also extracted the bottleneck features from these pre-trained models by removing the final-two layers and used them as an input to the LR, SVM, MLP and KNN classifiers to detect COVID-19 signature. The highest AUC of 0.98 was achieved using a transfer learning based Resnet50 architecture on coughs from Coswara dataset. The highest AUC of 0.94 and 0.92 was achieved from an SVM run on the bottleneck features extracted from the breaths from Coswara dataset and speech recordings from ComParE dataset. We conclude that among all vocal audio, coughs carry the strongest COVID-19 signature followed by breath and speech and using transfer learning improves the classifier performance with higher AUC and lower variance across the cross-validation folds. Although these signatures are not perceivable by human ear, machine learning based COVID-19 detection is possible from vocal audio recorded via smartphone.
研究の動機と目的
- スマートフォンを介して録音された音声を用いて、非侵襲的で低コストかつスケーラブルなCOVID-19検出手法の開発。
- 咳、息、発声音に、人間の耳では感知できないが検出可能な生理的兆候が含まれるかどうかの調査。
- 多様な音声データで事前学習し、ターゲットデータセットで微調整することで、転移学習を用いて分類性能の向上を図ること。
- 深層ニューラルネットワークのボトルネック特徴量を、従来の分類器の入力として用いることで、COVID-19検出の有効性を評価すること。
- 咳、息、発声音といった異なる音声モodal(音声モodal)のうち、COVID-19を同定するための診断的潜在能力の比較。
提案手法
- 咳、くしゃみ、発声、ノイズを含む10.29時間にわたる多様な音声データセットを用いて、CNN、LSTM、ResNet50を事前学習し、転移学習を実施。
- ターゲットデータセット(咳と息のためのCoswara、発声のためのComParE)で事前学習済みモデルを微調整し、COVID-19検出に適応。
- 事前学習済みモデルの最終2層を削除することで、高レベルの表現を捉えるボトルネック特徴量を抽出。
- ボトルネック特徴量を入力として、7種類の標準的分類器(ロジスティック回帰、SVM、MLP、KNN)を用いて分類。
- 全フォールドで堅牢な性能推定が得られるように、leave-p-out交差検証を適用。
- 主な評価指標としてAUCを用い、診断精度とばらつきの評価を実施。
実験結果
リサーチクエスチョン
- RQ1ディープ転移学習は、咳、息、発声音などの音声録音からCOVID-19を検出する性能を向上させ得るか?
- RQ2咳、息、発声音のうち、どの音声モダリティがCOVID-19の検出可能な兆候を最も強く持っているか?
- RQ3事前学習済み深層ニューラルネットワークのボトルネック特徴量は、エンドツーエンド学習と比較して性能と安定性の面で優れているか?
- RQ4転移学習は、異なる被験者グループ間での交差検証性能のばらつきを低減するか?
- RQ5医療専門知識や臨床施設を必要とせず、スマートフォンで録音した音声を用いても、COVID-19を高い精度で検出可能か?
主な発見
- Coswaraデータセットの咳音に対して、転移学習ベースのResNet50モデルを用いた場合、最高でAUC 0.98を達成した。
- 事前学習済みモデルのボトルネック特徴量を用いたSVM分類器は、Coswaraデータセットの息の音に対してAUC 0.94を達成した。
- 事前学習済みモデルのボトルネック特徴量を用いたSVM分類器は、ComParEデータセットの発声音に対してAUC 0.92を達成した。
- すべての音声モダリティの中で、咳音が最も強く検出可能なCOVID-19の兆候を有していた。続くのは息、その後が発声音であった。
- 転移学習は、ベースラインモデルと比較して分類器の性能を顕著に向上させるとともに、交差検証の各フォールドにおけるばらつきを低減した。
- 本研究では、機械学習が、人間の耳では聴き取れないが、音声からCOVID-19を高い精度で検出可能であることを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。