QUICK REVIEW

[论文解读] Full Persian Vowel recognition with MFCC and ANN on PCVC speech dataset

Saber Malekzadeh, Mohammad Hossein Gholizadeh|arXiv (Cornell University)|Jan 1, 2018

Speech Recognition and Synthesis参考文献 6被引用 4

一句话总结

该论文提出了一种基于梅尔频率倒谱系数（MFCC）和多层感知机（MLP）神经网络的波斯语元音识别系统，采用新提出的PCVC语音数据集。该方法基于能量阈值提取元音片段，并通过MFCC特征提取进行处理，对某些波斯语元音的识别准确率最高达到100%，所有六个元音的平均识别率为94.3%。

ABSTRACT

In this paper a new method for recognition of consonant-vowel phonemes combination on a new Persian speech dataset titled as PCVC (Persian Consonant-Vowel Combination) is proposed which is used to recognize Persian phonemes. In PCVC dataset, there are 20 sets of audio samples from 10 speakers which are combinations of 23 consonant and 6 vowel phonemes of Persian language. In each sample, there is a combination of one vowel and one consonant. First, the consonant phoneme is pronounced and just after it, the vowel phoneme is pronounced. Each sound sample is a frame of 2 seconds of audio. In every 2 seconds, there is an average of 0.5 second speech and the rest is silence. In this paper, the proposed method is the implementations of the MFCC (Mel Frequency Cepstrum Coefficients) on every partitioned sound sample. Then, every train sample of MFCC vector is given to a multilayer perceptron feed-forward ANN (Artificial Neural Network) for training process. At the end, the test samples are examined on ANN model for phoneme recognition. After training and testing process, the results are presented in recognition of vowels. Then, the average percent of recognition for vowel phonemes are computed.

研究动机与目标

开发一种基于新型、音素标注语音数据集的鲁棒波斯语音素识别系统。
评估MFCC与人工神经网络（ANN）在识别波斯语元音音素方面的有效性。
通过利用控制良好、复杂度最低的数据集，解决波斯语等低资源语言中音素识别准确率低的问题。
证明通过基于能量的分割和谱特征提取，可显著提升元音识别性能。

提出的方法

使用包含10名说话人发音的23个辅音和6个元音的PCVC数据集，每个2秒的音频样本包含0.5秒语音和1.5秒静音。
通过能量阈值法提取元音片段，将强度超过静音水平两倍的段落识别为元音。
采用20ms的窗长和10ms的重叠，提取MFCC特征，得到50个倒谱系数和100个频率带。
使用缩放共轭梯度反向传播和均方误差（MSE）损失函数，训练一个包含50个神经元的三层前馈MLP。
在元音片段的MFCC向量上进行训练，并在未见说话人上进行测试，以评估泛化能力。
使用0.5的正则化比率以平衡误差与权重衰减，学习率为0.1。

实验结果

研究问题

RQ1MFCC与ANN能否在低复杂度数据集上有效结合，实现高准确率的波斯语元音识别？
RQ2基于能量的元音分割在波斯语语音识别中如何提升识别性能？
RQ3使用该方法可实现对单个波斯语元音的多高识别准确率？
RQ4该系统在未参与训练的其他说话人上的泛化能力如何？
RQ5与非音素标注数据集相比，PCVC数据集的音素级标注在训练与评估中能多大程度提升效果？

主要发现

所提出的系统对波斯语元音/æ/（اول）和/e/（ارد）实现了100%的识别准确率，表明该模型在这些音素上达到最优性能。
元音/ʊ/（او）和/i/（ای）的识别准确率为96%，显示出在多个音素上的优异表现。
元音/o/（اردو）的识别准确率为92%，是六个元音中最低的，但仍高于平均值。
所有六个波斯语元音的平均识别率为94.3%，证明了系统整体的高效性。
系统在未见说话人上表现出良好的泛化能力，证实了其在跨说话人元音识别中的鲁棒性。
使用MFCC结合基于能量的分割方法，有效实现了从辅音-元音混合语音中分离元音区域。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。