Skip to main content
QUICK REVIEW

[論文レビュー] Assessment Of Audio Features For Automatic Cough Detection

Thomas Drugman, Jérôme Urbain|arXiv (Cornell University)|Aug 29, 2011
Respiratory and Cough-Related Research参考文献 10被引用数 40
ひとこと要約

本稿では、音声のみの記録を用いて自動的咳検出のための105種類の音声特徴量を評価し、相互情報に基づく特徴選択と3つの分類器(ANN、GMM、SVM)を適用した。最高の性能は、最適化された20個の特徴量を用いたガウス混合モデル(GMM)で達成され、感度95.2%、特異度94.3%を記録した。これは、コンパクトな特徴量セットが呼吸器疾患の監視に向けた高精度で客観的な咳検出を可能にすることを示している。

ABSTRACT

Publication in the conference proceedings of EUSIPCO, Barcelona, Spain, 2011

研究の動機と目的

  • モコビスチドーシスなどの呼吸器疾患の臨床的評価を支援するため、音声記録からの咳検出のための客観的で自動化された手法を開発すること。
  • 情報理論的指標を用いて、咳と非咳の音を区別するのに最も特徴的で重複のない音声特徴量を同定すること。
  • 特徴量の次元数や複雑さが異なる状況下で、人工ニューラルネットワーク(ANN)、ガウス混合モデル(GMM)、サポートベクターマシン(SVM)の3つの分類器の性能を比較すること。
  • 相互情報に基づく特徴選択を用いて、検出精度を損なわずに特徴量の次元数を低減すること。
  • 将来的に、リアルワールド環境における継続的で移動可能な咳の監視を可能にする、マルチモーダルシステムへの統合を可能にすること。

提案手法

  • スペクトル的特徴(例:MFCC、スペクトル重心、スペクトルフラックス)、ノイズ測定値(例:HNR、CPP、スペクトルフラットネス)、プロソディ関連特徴(例:エネルギー、基本周波数、ゼロクロスレート)に分類された、包括的な105種類の音声特徴量が抽出された。
  • 各特徴量の一次および二次の微分が計算され、音声信号内の動的変化を捉え、時間的感度を向上させた。
  • 相互情報に基づく指標を用いて、特徴量の重要性、重複性、補完性を評価し、効果的な特徴選択を実現した。
  • 3つの分類器を訓練した:可変な隠れ層サイズを持つ人工ニューラルネットワーク(ANN)、可変な成分数を持つガウス混合モデル(GMM)、ガウスカーネルを用いたサポートベクターマシン(SVM)。
  • 特徴量の次元数を、相互情報に基づく選択アルゴリズムを用いて低減し、最も情報量の多い特徴量のみを保持した。
  • 性能評価には受信者操作特性曲線(ROC)と等誤差率(EER)が用いられ、最適な設定における真正陽性率(TPR)と偽陽性率(FPR)が報告された。

実験結果

リサーチクエスチョン

  • RQ1臨床的音声記録において、咳と非咳の音を区別するのに最も情報量が多く、重複の少ない音声特徴量は何か?
  • RQ2選択された特徴量の数が、さまざまな分類器の咳検出性能にどのように影響するか?
  • RQ3特徴量の削減されたセットを用いた場合、ANN、GMM、SVMの中でどの分類器が最も高い検出精度を達成するか?
  • RQ4検出性能を劣化させることなく、特徴量の次元数をどの程度まで低減できるか?
  • RQ5分類器の複雑さ(例:ニューロン数やガウス成分数)が、検出精度と一般化性能にどのように影響するか?

主な発見

  • 16個のガウス成分と20個の選択された特徴量を用いたガウス混合モデル(GMM)が最良の性能を示し、真正陽性率(TPR)は95.20%、偽陽性率(FPR)は5.73%で、等誤差率(EER)は7.48%であった。
  • 相互情報に基づく特徴選択により選ばれた20個の特徴量のみを用いることで、105個すべての特徴量を使用した場合と同等の性能が達成され、ANNではEERが7.94%、GMMでは7.48%であった。
  • 64個のニューロンと105個の特徴量を用いたANNは、TPRが94.27%、FPRが5.50%でEERが7.94%を記録したが、より高い複雑さにもかかわらずGMMに劣った。
  • SVMは比較的性能が低く、TPRが81.87%、FPRが0.32%でEERが18.13%に達し、このタスクには適していないことが示された。
  • 特徴量の次元数の低減は、性能の損失を最小限に抑えつつ、大幅に効率性を向上させた。20個の特徴量が、すべての分類器でほぼ最適な結果をもたらした。
  • 本研究は、GMMが、効果的な特徴選択と組み合わせることで、ANNやSVMを上回って音声ベースの咳検出において優れた性能を発揮することを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。