QUICK REVIEW

[論文レビュー] Full Persian Vowel recognition with MFCC and ANN on PCVC speech dataset

Saber Malekzadeh, Mohammad Hossein Gholizadeh|arXiv (Cornell University)|Jan 1, 2018

Speech Recognition and Synthesis参考文献 6被引用数 4

ひとこと要約

本稿では、新しく導入されたPCVC音声データセットを用いて、メル周波数ケプストラル係数（MFCC）と多層パーセプトロン（MLP）ニューラルネットワークを用いたペルシャ語の母音認識システムを提案する。手法はエネルギー閾値に基づいて母音セグメントを抽出し、MFCC特徴抽出を実行することで、特定のペルシャ語母音について100％の認識精度を達成し、全6母音の平均認識率は94.3％に達する。

ABSTRACT

In this paper a new method for recognition of consonant-vowel phonemes combination on a new Persian speech dataset titled as PCVC (Persian Consonant-Vowel Combination) is proposed which is used to recognize Persian phonemes. In PCVC dataset, there are 20 sets of audio samples from 10 speakers which are combinations of 23 consonant and 6 vowel phonemes of Persian language. In each sample, there is a combination of one vowel and one consonant. First, the consonant phoneme is pronounced and just after it, the vowel phoneme is pronounced. Each sound sample is a frame of 2 seconds of audio. In every 2 seconds, there is an average of 0.5 second speech and the rest is silence. In this paper, the proposed method is the implementations of the MFCC (Mel Frequency Cepstrum Coefficients) on every partitioned sound sample. Then, every train sample of MFCC vector is given to a multilayer perceptron feed-forward ANN (Artificial Neural Network) for training process. At the end, the test samples are examined on ANN model for phoneme recognition. After training and testing process, the results are presented in recognition of vowels. Then, the average percent of recognition for vowel phonemes are computed.

研究の動機と目的

新しく、音素ラベルが付与された音声データセットを用いて、ペルシャ語の堅牢な音素認識システムを開発すること。
MFCCおよび人工ニューラルネットワーク（ANN）がペルシャ語母音音素を認識する有効性を評価すること。
ペルシャ語のような低リソース言語における低音素認識精度の課題を、制御的で最小限の複雑性を持つデータセットを活用することで解決すること。
エネルギーに基づくセグメンテーションとスペクトル特徴抽出を用いることで、母音認識性能を顕著に向上させられることを示すこと。

提案手法

23の子音と6つの母音を含む10人の話者から構成されるPCVCデータセットが使用され、各2秒の音声サンプルには0.5秒間の会話と1.5秒間の沈黙が含まれる。
母音セグメントはエネルギー閾値を用いて抽出され、母音は沈黙レベルの2倍以上の強度を持つセグメントとして特定された。
MFCC特徴は20msのウィンドウと10msのオーバーラップを用いて抽出され、50個のケプストル係数と100個の周波数帯が得られた。
隠れ層に50ニューロンを有する3層の順方向MLPを、スケーリング共役勾配法を用いた逆誤差伝搬法と平均二乗誤差（MSE）損失関数で学習させた。
ネットワークは母音セグメントのMFCCベクトルを学習し、未学習の話者を用いたテストにより汎化性能を評価した。
誤差と重み減衰のバランスを取るために正則化比0.5を用い、学習率は0.1とした。

実験結果

リサーチクエスチョン

RQ1MFCCとANNを組み合わせることで、最小限の複雑性を持つデータセット上でペルシャ語母音認識を高精度に達成できるか？
RQ2エネルギーに基づく母音セグメンテーションは、ペルシャ語音声における認識性能をどのように向上させるか？
RQ3この手法を用いることで、個々のペルシャ語母音の認識精度はどの程度達成可能か？
RQ4訓練データに含まれない異なる話者に対して、このシステムはどの程度汎化するか？
RQ5PCVCデータセットの音素レベルのラベル付けは、非音素的データセットと比較して、学習と評価をどの程度向上させるか？

主な発見

提案されたシステムは、ペルシャ語母音 /æ/（اول）と /e/（ارد）について100％の認識精度を達成し、これらの音素においてモデルの最適な性能を示した。
母音 /ʊ/（او）と /i/（ای）は96％の認識精度を達成し、複数の音素においても優れた性能を示した。
母音 /o/（اردو）は92％の認識精度を達成し、全6母音の中で最低であったが、依然として平均を上回った。
全6母音の平均認識率は94.3％であり、システム全体の高い有効性を示した。
未学習の話者に対しても良好な汎化性能を示し、話者間母音認識における堅牢性を確認した。
エネルギーに基づくセグメンテーションとMFCCの併用は、混合子音-母音発話から母音領域を効果的に分離するのに有効であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。