QUICK REVIEW

[論文レビュー] Voice Disorder Detection Using Long Short Term Memory (LSTM) Model

Vibhuti Gupta|arXiv (Cornell University)|Jan 1, 2018

Voice and Speech Disorders参考文献 1被引用数 8

ひとこと要約

本論文では、音声サンプルから抽出した音声特徴を用いて、病理的声障害の自動検出を目的としたLSTMベースの深層学習モデルを提案する。Mel周波数 cepstral コefficient（MFCC）、スペクトルコア、クロマ、スペクトルコントラスト特徴（合計33個）を組み合わせ、2層の隠れ層（128および32ニューロン）を持つLSTMを訓練し、400個のラベルなしテストサンプルで22%の感受性、97%の特異性、56%の未加重平均再現率を達成した。

ABSTRACT

Automated detection of voice disorders with computational methods is a recent research area in the medical domain since it requires a rigorous endoscopy for the accurate diagnosis. Efficient screening methods are required for the diagnosis of voice disorders so as to provide timely medical facilities in minimal resources. Detecting Voice disorder using computational methods is a challenging problem since audio data is continuous due to which extracting relevant features and applying machine learning is hard and unreliable. This paper proposes a Long short term memory model (LSTM) to detect pathological voice disorders and evaluates its performance in a real 400 testing samples without any labels. Different feature extraction methods are used to provide the best set of features before applying LSTM model for classification. The paper describes the approach and experiments that show promising results with 22% sensitivity, 97% specificity and 56% unweighted average recall.

研究の動機と目的

計算モデルを用いた、自動的で低コストかつ効率的な声障害検出手法の開発を目的とする。
時間と費用がかかるため診断を遅らせる伝統的な内視鏡検査の限界を克服することを目的とする。
Long Short-Term Memory（LSTM）ネットワークが、生の音声から病理的声障害を分類する有効性を調査することを目的とする。
MFCC、スペクトルコア、クロマ、スペクトルコントラストといった複数の特徴抽出手法の分類精度への寄与を評価することを目的とする。
LSTMが音声信号の時間的依存性を効果的にモデル化でき、臨床スクリーニング用途において有用であることを示すこと。

提案手法

入力は、FEMH Big Data Cupチャレンジから得られた400個の音声サンプルで、正常例50例、病理的例150例（音声障害、腫瘍、声帯麻痺）を含む。
4つの手法を用いて音声特徴を抽出：13個のMFCC、1個のスペクトルコア、12個のクロマ特徴、13個のスペクトルコントラスト特徴、合計33特徴/サンプル。
2層の隠れ層（128および32ニューロン）と1層の出力層（4クラス：正常、音声障害、腫瘍、声帯麻痺）を持つLSTMネットワークを分類に使用。
Adam最適化法とカテゴリカル交差エントロピー損失関数を用いてモデルを訓練し、収束を評価するために500および5000エポックで実験を実施。
特徴の前処理には正規化と、22,050 Hzのサンプリングレートで4秒間のクリップに音声を分割する処理を含む。
アーキテクチャは、LSTMが順序的な音声データにおける長期的時間的依存性を捉える能力を活用し、従来の機械学習モデルよりも分類性能を向上させた。

実験結果

リサーチクエスチョン

RQ1ラベル付き臨床データに依存せずに、LSTMモデルが生の音声から病理的声障害を効果的に分類できるか？
RQ2MFCC、スペクトルコア、クロマ、スペクトルコントラストといった異なる音声特徴の組み合わせが、LSTMベースの声障害検出の性能にどのように影響するか？
RQ3LSTMを用いた声障害検出において、安定的かつ高精度な分類を達成するための最適な訓練エポック数とバッチサイズは何か？
RQ4特に正常声と病理的声を区別する際、モデルの感受性と特異性は、異なる声障害タイプにおいてどのように比較されるか？
RQ5LSTMが音声信号における意味のある時間的パターンをどれほど学習できるか、従来の機械学習手法を上回る検出性能を実現できるか？

主な発見

LSTMモデルは97.1%の特異性を達成し、正常な声サンプルを健康と正しく識別する能力が優れていることを示した。
感受性は22%であり、実際に病理的声障害を示すケースのうち22%しか正しく検出できなかったため、異常ケースの再現率という点で大きな限界があることが明らかになった。
未加重平均再現率（UAR）は56%に達し、すべてのクラスにわたるバランスの取れた性能を示した。また、訓練エポックを500から5000に増加させることで改善が確認された。
モデルは感受性よりも特異性が高く、病気を検出するのではなく、病気でないことを排除する点でより信頼性があることが示唆された。
MFCC、スペクトルコア、クロマ、スペクトルコントラストの特徴抽出が、モデルの汎化能力を高める33次元の入力ベクトルを効果的に構築した。
結果から、LSTMは声障害検出に実用的であることが示されたが、感受性の向上のためにはさらなるハイパーパramータチューニングとデータ拡張が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。