Skip to main content
QUICK REVIEW

[论文解读] Wavelet-Based Mel-Frequency Cepstral Coefficients for Speaker Identification using Hidden Markov Models

Mahmoud I. Abdalla, Hanaa S. Ali|arXiv (Cornell University)|Mar 29, 2010
Speech Recognition and Synthesis参考文献 10被引用 28
一句话总结

本文提出了一种基于小波的梅尔频率倒谱系数(MFCC)方法,用于使用隐马尔可夫模型(HMMs)进行说话人识别,利用离散小波变换的时间-频率多分辨率特性,提升在噪声环境下的特征提取性能。该方法在干净条件下识别率达到99.3%,在20 dB信噪比的白高斯噪声下达到97.3%,在噪声条件下优于传统MFCCs 5.3个百分点。

ABSTRACT

To improve the performance of speaker identification systems, an effective and robust method is proposed to extract speech features, capable of operating in noisy environment. Based on the time-frequency multi-resolution property of wavelet transform, the input speech signal is decomposed into various frequency channels. For capturing the characteristic of the signal, the Mel-Frequency Cepstral Coefficients (MFCCs) of the wavelet channels are calculated. Hidden Markov Models (HMMs) were used for the recognition stage as they give better recognition for the speaker's features than Dynamic Time Warping (DTW). Comparison of the proposed approach with the MFCCs conventional feature extraction method shows that the proposed method not only effectively reduces the influence of noise, but also improves recognition. A recognition rate of 99.3% was obtained using the proposed feature extraction technique compared to 98.7% using the MFCCs. When the test patterns were corrupted by additive white Gaussian noise with 20 dB S/N ratio, the recognition rate was 97.3% using the proposed method compared to 93.3% using the MFCCs.

研究动机与目标

  • 提升在噪声声学环境下的说话人识别性能。
  • 开发一种在信号质量下降条件下仍能保持准确性的鲁棒语音特征提取方法。
  • 将小波变换与梅尔频率倒谱系数结合,以增强频谱表示。
  • 使用HMM作为识别引擎,评估所提方法的性能,并与传统MFCC进行对比。

提出的方法

  • 使用离散小波变换(DWT)将输入语音信号分解为多个频带,实现多分辨率的时间-频率分析。
  • 从每个小波分解后的子带中提取梅尔频率倒谱系数(MFCCs),以捕捉感知相关的频谱包络。
  • 将所得的小波基MFCCs用作隐马尔可夫模型(HMMs)的输入特征,该模型已针对说话人识别进行训练。
  • 使用HMM进行序列建模与分类,其性能优于说话人验证任务中的动态时间规整(DTW)。
  • 该方法结合了小波分解的抗噪性与梅尔频率滤波的感知相关性。
  • 将所有小波子带的特征向量拼接后,用于训练和测试基于HMM的说话人识别系统。

实验结果

研究问题

  • RQ1与传统MFCC相比,基于小波的特征提取是否能提升在噪声环境下的说话人识别准确率?
  • RQ2将小波变换与梅尔频率倒谱系数结合,对识别性能有何影响?
  • RQ3使用HMM与小波-MFCC特征相比使用标准MFCC的HMM是否能获得更好结果?
  • RQ4所提方法在加性白高斯噪声下,能在多大程度上减少识别准确率的下降?
  • RQ5在说话人识别中,小波分解层数与识别性能之间存在何种最优平衡?

主要发现

  • 所提的小波基MFCC方法在干净语音条件下实现了99.3%的说话人识别率,优于传统MFCC。
  • 在20 dB信噪比(SNR)的加性白高斯噪声下,所提方法的识别率保持在97.3%,而传统MFCC仅为93.3%。
  • 在噪声条件下,所提方法相比传统MFCC的性能提升达5.3个百分点。
  • 小波基方法表现出更强的抗噪性,表明其能有效抑制频谱特征中的干扰。
  • 使用HMM与小波-MFCC特征相比基于DTW的系统获得了更高的识别准确率,证实HMM在序列建模中的有效性。
  • 将多分辨率小波分解与梅尔频率滤波相结合,增强了感知特征表示,从而提升了说话人之间的区分能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。