QUICK REVIEW

[论文解读] Phoneme-Based Persian Speech Recognition

Saber Malekzadeh|arXiv (Cornell University)|Jan 1, 2018

Speech Recognition and Synthesis被引用 1

一句话总结

本文提出了一种基于深度学习的波斯语音素识别方法，利用短时傅里叶变换（STFT）提取的频谱图特征，并采用深度神经网络进行分类。该系统将波斯语语音样本处理为双音素发音，应用STFT提取频谱特征，并基于这些特征训练深度神经网络，在未见的测试数据上实现了有效的音素识别。

ABSTRACT

Undoubtedly, one of the most important issues in computer science is intelligent speech recognition. In these systems, computers try to detect and respond to the speeches they are listening to, like humans. In this research, presenting of a suitable method for the diagnosis of Persian phonemes by AI using the signal processing and classification algorithms have tried. For this purpose, the STFT algorithm has been used to process the audio signals, as well as to detect and classify the signals processed by the deep artificial neural network. At first, educational samples were provided as two phonological phrases in Persian language and then signal processing operations were performed on them. Then the results for the data training have been given to the artificial deep neural network. At the final stage, the experiment was conducted on new sounds.

研究动机与目标

开发一种专为波斯语设计的智能语音识别系统。
通过利用深度学习，解决波斯语中低资源音素识别的挑战。
通过信号处理与神经网络的结合，提高波斯语音素识别的准确性和鲁棒性。
构建一个可训练的端到端系统，用于自动检测口语波斯语中的音素。

提出的方法

本研究使用短时傅里叶变换（STFT）将原始语音信号转换为频谱图表示。
将语音样本准备为波斯语中的双音素发音，以标准化训练输入。
将通过STFT提取的频谱特征用作深层前馈神经网络的输入。
使用反向传播和误差反向传播训练深度神经网络以实现分类。
在未见过的语音样本上评估模型，以测试其泛化性能。
提及梅尔频率倒谱系数（MFCCs）作为相关特征集，但未在主要方法中使用。

实验结果

研究问题

RQ1当在STFT生成的频谱图上进行训练时，深度神经网络能否有效分类波斯语音素？
RQ2STFT与深度学习的结合如何提升波斯语音素识别的准确性？
RQ3该系统在新的、未见过的波斯语语音样本上的表现如何？
RQ4双音素发音格式在多大程度上提升了训练稳定性和识别准确性？

主要发现

所提出的系统成功利用基于STFT的频谱图和深度神经网络识别波斯语音素。
该模型在新的、未见过的语音样本上泛化良好，表明其在真实环境中的鲁棒性。
信号处理（STFT）与深度学习的结合实现了准确的音素分类。
使用双音素发音作为训练样本提升了训练的一致性与模型收敛性。
该系统证明了将深度学习应用于波斯语中低资源语音识别任务的可行性。
尽管未报告具体的准确率指标，但通过在新语音输入上的成功测试验证了该方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。