Skip to main content
QUICK REVIEW

[论文解读] Comparison of Speech Activity Detection Techniques for Speaker Recognition

Md Sahidullah, Goutam Saha|arXiv (Cornell University)|Oct 1, 2012
Speech Recognition and Synthesis参考文献 28被引用 25
一句话总结

本文使用NIST语音语料库评估了语音活动检测(SAD)技术在说话人识别中的表现,比较了其在干净和噪声环境下的性能。研究发现,基于双高斯模型的SAD方法在与GMM-UBM分类器结合时,相较于其他方法表现更优,尤其在噪声环境中表现更佳。

ABSTRACT

Speech activity detection (SAD) is an essential component for a variety of speech processing applications. It has been observed that performances of various speech based tasks are very much dependent on the efficiency of the SAD. In this paper, we have systematically reviewed some popular SAD techniques and their applications in speaker recognition. Speaker verification system using different SAD technique are experimentally evaluated on NIST speech corpora using Gaussian mixture model- universal background model (GMM-UBM) based classifier for clean and noisy conditions. It has been found that two Gaussian modeling based SAD is comparatively better than other SAD techniques for different types of noises.

研究动机与目标

  • 评估不同语音活动检测(SAD)技术对说话人识别性能的影响。
  • 评估SAD在干净和噪声语音环境下的有效性。
  • 识别在说话人验证系统中最具鲁棒性的SAD方法。
  • 基于标准化的GMM-UBM分类器框架,比较各种SAD技术的性能。

提出的方法

  • 本研究采用基于GMM-UBM的说话人验证系统作为核心分类器。
  • 应用多种SAD技术对输入音频中的语音段和非语音段进行分割。
  • 将基于双高斯模型的SAD方法作为对比基准。
  • 在NIST语音语料库上,于干净和噪声条件下开展实验。
  • 使用标准说话人识别指标评估性能,SAD输出用于调节GMM-UBM分类器。
  • 系统性地比较各种SAD技术对说话人验证准确率的影响。

实验结果

研究问题

  • RQ1在干净语音条件下,哪种SAD技术能实现最高的说话人验证准确率?
  • RQ2在语音质量下降(噪声)条件下,不同SAD方法的表现如何?
  • RQ3基于双高斯模型的SAD方法在抗噪声鲁棒性方面是否优于其他SAD技术?
  • RQ4SAD的选择如何影响GMM-UBM说话人验证系统的整体性能?

主要发现

  • 基于双高斯模型的SAD方法在干净和噪声条件下均优于其他SAD方法。
  • 该SAD方法在语音语料中对各类背景噪声表现出更强的鲁棒性。
  • 在噪声环境中,说话人验证准确率的提升最为显著。
  • 其他SAD方法在噪声水平升高时有效性明显下降,而双高斯模型SAD则保持稳定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。