QUICK REVIEW

[論文レビュー] Spoken Language Identification Using Hybrid Feature Extraction Methods

Pawan Kumar, Astik Biswas|arXiv (Cornell University)|Mar 29, 2010

Speech Recognition and Synthesis参考文献 11被引用数 33

ひとこと要約

本論文は、メル周波数ケプストラム係数（MFCC）と知覚的線形予測（PLP）を組み合わせることで、2つの新しい特徴量、バーグ周波数ケプストラム係数（BFCC）と改訂版知覚的線形予測（RPLP）を導出するハイブリッド特徴抽出手法を提案する。ベクトル量子化と動的時間ワープング（VQ-DTW）およびガウス混合モデル（GMM）を用いた実験により、RPLPとGMMの組み合わせが、両方の分類器において従来のMFCCおよびPLP特徴量を上回る最高の識別精度を達成することが示された。

ABSTRACT

This paper introduces and motivates the use of hybrid robust feature extraction technique for spoken language identification (LID) system. The speech recognizers use a parametric form of a signal to get the most important distinguishable features of speech signal for recognition task. In this paper Mel-frequency cepstral coefficients (MFCC), Perceptual linear prediction coefficients (PLP) along with two hybrid features are used for language Identification. Two hybrid features, Bark Frequency Cepstral Coefficients (BFCC) and Revised Perceptual Linear Prediction Coefficients (RPLP) were obtained from combination of MFCC and PLP. Two different classifiers, Vector Quantization (VQ) with Dynamic Time Warping (DTW) and Gaussian Mixture Model (GMM) were used for classification. The experiment shows better identification rate using hybrid feature extraction techniques compared to conventional feature extraction methods.BFCC has shown better performance than MFCC with both classifiers. RPLP along with GMM has shown best identification performance among all feature extraction techniques.

研究の動機と目的

より強固なハイブリッド特徴抽出技術の開発により、話者言語識別（LID）の性能を向上させること。
MFCCとPLP特徴量を組み合わせることで、BFCCやRPLPのような新しいハイブリッド表現を生成する有効性を調査すること。
VQ-DTWおよびGMMを含む複数の分類器を用いて、これらのハイブリッド特徴量の性能を評価すること。
LIDの識別精度を最大化する最適な特徴量-分類器の組み合わせを特定すること。
実世界のノイズや変動する音響環境下でも、ハイブリッド特徴量が従来のMFCCおよびPLPを上回ることを実証すること。

提案手法

著者たちは、ハイブリッド特徴量生成のための基本的要素として、音声信号からMFCCおよびPLP特徴量を抽出する。
BFCCは、対数パワースペクトルにバーグスケールのフィルタバンクを適用することで導出され、知覚的およびスペクトル的特徴を統合する。
RPLPは、スペクトルエンベロープ推定の精度を向上させるためにPLPプロセスを改訂することで生成され、より高い耐障害性を実現する。
ハイブリッド特徴量であるBFCCおよびRPLPは、MFCCとPLPの相補的な強みを活かして組み合わせられる。
2つの分類器が使用された：パターンマッチングにベクトル量子化と動的時間ワープング（VQ-DTW）、確率的分類にガウス混合モデル（GMM）。
性能評価は、標準的なLID指標を用いて実施され、異なる特徴量セットと分類器間での認識率を比較した。

実験結果

リサーチクエスチョン

RQ1MFCCとPLPを組み合わせたハイブリッド特徴抽出技術は、話者言語識別精度を向上させることができるか？
RQ2BFCCおよびRPLP特徴量は、従来のMFCCおよびPLPと比較して、耐障害性および識別能において優れているか？
RQ3ハイブリッド特徴量と組み合わせた場合、VQ-DTWとGMMのどちらの分類器がより優れた性能を示すか？
RQ4RPLPとGMMの組み合わせは、すべての他の特徴量-分類器設定を上回る性能を示すか？
RQ5ハイブリッド特徴量は、実世界の音響変動環境下で、LID性能をどの程度向上させるか？

主な発見

RPLPとGMMの組み合わせが、すべてのテストされた特徴量-分類器の組み合わせの中で最高の言語識別精度を達成した。
ハイブリッド特徴量RPLPは、VQ-DTWおよびGMMの両方と組み合わせても、MFCCおよびPLPを上回る性能を示した。
BFCCはMFCCおよびPLPを上回る性能を示したが、RPLPほど効果的ではなかった。
GMMは、すべての特徴タイプにおいてVQ-DTWを一貫して上回り、複雑な音声変動をモデル化する上で優位性を示した。
MFCCとPLPをRPLPに統合することで、スペクトル表現が著しく向上し、言語識別能が向上した。
本研究は、ハイブリッド特徴抽出技術が、単独のMFCCまたはPLPよりも、より耐障害性があり、効果的であることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。