QUICK REVIEW

[論文レビュー] Phoneme-Based Persian Speech Recognition

Saber Malekzadeh|arXiv (Cornell University)|Jan 1, 2018

Speech Recognition and Synthesis被引用数 1

ひとこと要約

本稿では、短時間フーリエ変換（STFT）から得られるスペクトログラム特徴量と深層ニューラルネットワークを用いた、ペルシャ語発音記号認識のためのディープラーニングベースの手法を提案する。システムはペルシャ語音声サンプルを2音節の発話に変換し、STFTを用いて周波数特徴量を抽出し、これらの特徴量を基に深層ニューラルネットワークを学習させ、未知のテストデータにおいて効果的な発音記号認識を達成する。

ABSTRACT

Undoubtedly, one of the most important issues in computer science is intelligent speech recognition. In these systems, computers try to detect and respond to the speeches they are listening to, like humans. In this research, presenting of a suitable method for the diagnosis of Persian phonemes by AI using the signal processing and classification algorithms have tried. For this purpose, the STFT algorithm has been used to process the audio signals, as well as to detect and classify the signals processed by the deep artificial neural network. At first, educational samples were provided as two phonological phrases in Persian language and then signal processing operations were performed on them. Then the results for the data training have been given to the artificial deep neural network. At the final stage, the experiment was conducted on new sounds.

研究の動機と目的

ペルシャ語に特化したインテリジェントな音声認識システムの開発を目的とする。
ディープラーニングを活用することで、ペルシャ語における低リソース発音記号認識の課題に取り組む。
信号処理とニューラルネットワークを統合することで、ペルシャ語発音記号認識の精度と頑健性を向上させる。
スプokenペルシャ語における自動発音記号検出のためのトレーニング可能でエンドツーエンドのシステムを構築することを目的とする。

提案手法

研究では、生の音声信号をスペクトログラム表現に変換するために短時間フーリエ変換（STFT）を用いる。
訓練用の入力を標準化するために、ペルシャ語の音声サンプルを2音節の発話として準備する。
STFTによって抽出された周波数特徴量を、深層フィードフォワードニューラルネットワークの入力として使用する。
深層ニューラルネットワークは、誤差逆伝播法を用いてバックプロパゲーションと誤差逆伝播を用いて分類のために訓練される。
汎化性能をテストするために、未観測の音声サンプル上でモデルを評価する。
メル周波数 cepstrum 係数（MFCCs）は関連する特徴セットとして言及されているが、主な手法では使用されていない。

実験結果

リサーチクエスチョン

RQ1STFT由来のスペクトログラムを学習データとして用いた場合、深層ニューラルネットワークがペルシャ語発音記号を効果的に分類できるか？
RQ2STFTとディープラーニングの組み合わせが、ペルシャ語における発音記号認識の精度をどのように向上させるか？
RQ3本システムは、新しい未観測のペルシャ語音声サンプルに対してどの程度の性能を示すか？
RQ42音節の発話形式が、訓練の安定性と認識精度をどの程度向上させるか？

主な発見

提案されたシステムは、STFTに基づくスペクトログラムと深層ニューラルネットワークを用いて、ペルシャ語発音記号を効果的に認識している。
モデルは新しい未観測の音声サンプルに対しても良好に一般化しており、実環境条件下での頑健性を示している。
信号処理（STFT）とディープラーニングの統合により、正確な発音記号分類が可能になった。
2音節の発話形式を訓練サンプルとして使用することで、訓練の一貫性とモデルの収束性が向上した。
本システムは、ペルシャ語における低リソース音声認識タスクにディープラーニングを適用する可能性を示している。
特定の精度指標は報告されていないが、新しい音声入力に対する成功したテストにより、本手法の妥当性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。