QUICK REVIEW

[論文レビュー] Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques

Lindasalwa Muda, M. Humrosia Begam|arXiv (Cornell University)|Mar 22, 2010

Music and Audio Processing参考文献 6被引用数 821

ひとこと要約

本稿では、特徴抽出にメル周波数ケプストラム係数（MFCC）を、シーケンスマッチングに動的時間ワープング（DTW）を用いた音声認識システムを提案する。MFCCは聴覚的に関連する音声特徴を効果的に捉える一方、DTWは音声の時間的ばらつきを補正し、非線形な音声パターンの整合をとることで、正確な発話者認識を実現することを示している。

ABSTRACT

Digital processing of speech signal and voice recognition algorithm is very important for fast and accurate automatic voice recognition technology. The voice is a signal of infinite information. A direct analysis and synthesizing the complex voice signal is due to too much information contained in the signal. Therefore the digital signal processes such as Feature Extraction and Feature Matching are introduced to represent the voice signal. Several methods such as Liner Predictive Predictive Coding (LPC), Hidden Markov Model (HMM), Artificial Neural Network (ANN) and etc are evaluated with a view to identify a straight forward and effective method for voice signal. The extraction and matching process is implemented right after the Pre Processing or filtering signal is performed. The non-parametric method for modelling the human auditory perception system, Mel Frequency Cepstral Coefficients (MFCCs) are utilize as extraction techniques. The non linear sequence alignment known as Dynamic Time Warping (DTW) introduced by Sakoe Chiba has been used as features matching techniques. Since it's obvious that the voice signal tends to have different temporal rate, the alignment is important to produce the better performance.This paper present the viability of MFCC to extract features and DTW to compare the test patterns.

研究の動機と目的

デジタル信号処理技術を用いた信頼性が高く効率的な音声認識システムの開発を目的とする。
音声信号における時間的ばらつきの課題に対処し、発話パターンの直接比較を困難にする要因を解消することを目的とする。
MFCCが人間の聴覚認識をモデル化する特徴抽出手法として有効であるかを評価することを目的とする。
非線形に整合された音声シーケンスに対して、DTWを堅牢なマッチング手法として検討することを目的とする。
MFCCとDTWを組み合わせることで、正確な自動音声認識が可能であることを実証することを目的とする。

提案手法

特徴抽出の前に、ノイズ除去と明瞭度向上を目的とした生の音声信号の前処理を行う。
人間の聴覚認識を反映するスペクトル特徴を抽出するために、メル周波数ケプストラム係数（MFCC）を適用する。
周波数スペクトルを聴覚的に重み付けされた係数に変換するために、離散フーリエ変換（DFT）とメルスケールフィルターバンクを用いる。
変動する発話速度を持つ音声シーケンスの整合と比較に、動的時間ワープング（DTW）を用いる。
テスト信号と基準信号の特徴ベクトル間の累積距離を最小化するコスト関数を用いて、DTWを実装する。
テスト音声パターンをデータベースに保存された基準テンプレートと比較し、類似度が最も高いものを特定する。

実験結果

リサーチクエスチョン

RQ1MFCCは、音声認識に適した判別性の高い特徴を音声信号から効果的に抽出できるか？
RQ2パターンマッチングの過程で、DTWは音声信号の時間的ばらつきをどの程度適切に処理できるか？
RQ3変動する発話速度下でも、MFCC-DTWの組み合わせによる識別性能はいかがなものか？
RQ4分離語認識において、LPC や HMM といった従来手法と比較して、MFCC-DTWアプローチはより堅牢であるか？
RQ5リアルタイム応用において、計算オーバーヘッドを最小限に抑えながら高い精度を達成できるか？

主な発見

MFCCは、重要な聴覚帯域に注目することで、音声信号のコンパクトで聴覚的に関連する表現を提供する。
DTWは、発話速度の違いがあるにもかかわらず、変動する期間を持つ音声シーケンスを効果的に整合させ、マッチング精度を向上させる。
MFCCとDTWの組み合わせは、分離語または発話者識別タスクにおいて高い認識精度を達成する。
非パrametricな性質のおかげで、計算的にも効率的であり、リアルタイム応用に適している。
発話のピッチや発話速度の変動に対しても、本システムは頑健であるため、実用的導入に適している。
本手法は、LPCのような従来手法に比べ、シンプルさと変動条件下での認識安定性の面で優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。