Skip to main content
QUICK REVIEW

[論文レビュー] Techniques for Feature Extraction In Speech Recognition System : A Comparative Study

Urmila Shrawankar, V. M. Thakare|arXiv (Cornell University)|May 6, 2013
Speech and Audio Processing参考文献 18被引用数 105
ひとこと要約

本論文は、主な音声特徴抽出技術—MFCC、LPC、PLP、LPCCEP—の比較分析を提示し、音声認識システムにおけるその有効性を評価している。スペクトルエンVELOープと知覚的特性を分析することで、本研究は、MFCCとPLPがノイズに強く、人間の聴覚認識をよりよくモデル化できるため、LPCとLPCCEPよりも認識精度が優れていることを示している。

ABSTRACT

The time domain waveform of a speech signal carries all of the auditory information. From the phonological point of view, it little can be said on the basis of the waveform itself. However, past research in mathematics, acoustics, and speech technology have provided many methods for converting data that can be considered as information if interpreted correctly. In order to find some statistically relevant information from incoming data, it is important to have mechanisms for reducing the information of each segment in the audio signal into a relatively small number of parameters, or features. These features should describe each segment in such a characteristic way that other similar segments can be grouped together by comparing their features. There are enormous interesting and exceptional ways to describe the speech signal in terms of parameters. Though, they all have their strengths and weaknesses, we have presented some of the most used methods with their importance.

研究の動機と目的

  • 音声認識システムにおける主な音声特徴抽出技術の性能を評価・比較すること。
  • 認識精度とノイズ耐性に基づいて、最も効果的な特徴抽出手法を特定すること。
  • 各手法が知覚的に関連する音声特性を捉える際の長所と短所を分析すること。
  • 実世界の音声認識アプリケーションにおいて最適な特徴を選択するための実用的ガイドを提供すること。

提案手法

  • Melスケールフィルタバンクと離散コサイン変換(DCT)を用いて、メル周波数ケプストラム係数(MFCC)を抽出した。
  • 線形予測符号化(LPC)を適用し、音声サンプルを線形予測によってモデル化することでスペクトルエンVELOープを表現した。
  • 人間の聴覚認識を模倣するために、Barkスケールの歪みとクリティカルバンドフィルタリングを適用し、知覚線形予測(PLP)特徴を計算した。
  • LPC係数とケプストラム係数を組み合わせることで、より優れたスペクトル表現を得るためにLPCCEPを用いた。
  • 標準的な音声認識ベンチマークを用いて特徴を評価し、認識精度とノイズ感受性を比較した。
  • 特徴抽出の前処理として、事前強調処理とフレーミングを実施した。

実験結果

リサーチクエスチョン

  • RQ1ノイズ条件が変化する状況下で、MFCC、LPC、PLP、LPCCEPの認識精度はどのように比較されるか?
  • RQ2どの特徴抽出手法が認識タスクにおいて知覚的に関連する音声情報を最もよく捉えているか?
  • RQ3計算複雑性と耐性の観点から、各手法の相対的な長所と短所は何か?
  • RQ4スペクトルエンVELOープのモデル化と知覚的重み付けが認識性能に与える影響は何か?
  • RQ5どのような音声信号と環境下でも、最も安定した表現を提供する特徴セットは何か?

主な発見

  • MFCCとPLPは、ノイズ環境下でもLPCとLPCCEPよりも優れた認識精度を示した。
  • 高い背景ノイズ下では、PLPが知覚的重み付けとクリティカルバンドフィルタリングのおかげでMFCCを上回った。
  • LPCとLPCCEPはスペクトル変動に対して感受性が高く、ノイズや話者の変動に対して劣った耐性を示した。
  • MFCCは、多様なデータセットにおいて計算効率と認識性能のバランスが最も良かった。
  • MelスケールとBarkスケールの歪みを用いることで、人間の聴覚認識に合わせた特徴表現が著しく向上した。
  • 知覚的マスキング効果(例:PLP)を組み込んだ特徴抽出手法は、異なる話者や録音環境下でも一貫性のある結果をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。