QUICK REVIEW
[论文解读] MUSAN: A Music, Speech, and Noise Corpus
David Snyder, Guoguo Chen|arXiv (Cornell University)|Oct 28, 2015
Speech Recognition and Synthesis参考文献 5被引用 922
一句话总结
本文介绍了 MUSAN,一个可自由分发的音频语料库,包含从公共领域和知识共享许可来源获取的109小时音乐、语音和噪声音频,专为训练语音活动检测(VAD)和音乐/语音区分系统而设计。在该语料库上使用基于高斯混合模型(GMM)的模型,作者取得了具有竞争力的性能表现——尤其在VAD方面,GMM+能量混合模型在低资源条件下使说话人识别等效错误率(EER)最高降低23.16%。
ABSTRACT
This report introduces a new corpus of music, speech, and noise. This dataset is suitable for training models for voice activity detection (VAD) and music/speech discrimination. Our corpus is released under a flexible Creative Commons license. The dataset consists of music from several genres, speech from twelve languages, and a wide assortment of technical and non-technical noises. We demonstrate use of this corpus for music/speech discrimination on Broadcast news and VAD for speaker identification.
研究动机与目标
- 创建一个公开可用、可合法分发的音频语料库,用于训练语音活动检测(VAD)和音乐/语音区分系统。
- 解决音乐和语音领域缺乏可合法分发的原始音频数据集的问题,特别是那些具备商业使用许可清晰授权的数据集。
- 提供一个多样化、多语言、多流派的语料库,涵盖语音、音乐和环境噪声,以提升语音处理应用中的鲁棒性。
- 通过在标准基准(如Broadcast News和NIST SRE 2010)上使用基于GMM的基线实验,展示该语料库的实用性。
- 评估在语音资源有限条件下,VAD质量对下游说话人识别性能的影响。
提出的方法
- 该语料库从美国公共领域和知识共享许可来源收集,包括Librivox(朗读语音)、Jamendo、Free Music Archive、Incompetech和HD Classical Music(音乐),以及Free Sound和Sound Bible(噪声)。
- 音频格式为16kHz单声道WAV文件,每个音频片段的元数据和许可信息存储在LICENSE和ANNOTATIONS文件中。
- 对于音乐/语音区分任务,基于20维梅尔倒谱系数(MFCC)及其一阶和二阶差分特征训练GMM模型,使用4至128个分量,并在Broadcast News数据上以等效错误率(EER)进行评估。
- 对于VAD任务,采用混合系统:结合基于能量的VAD与在语音、音乐和噪声子集上训练的GMM-VAD,其先验概率在域外数据上进行调优。
- 说话人识别实验采用i-vector系统,结合GMM通用背景模型(UBM)和PLDA后端,利用VAD决策过滤非语音帧。
- 性能在NIST SRE 2010核心集上进行评估,测试语音段被截断为1至60秒,以模拟实时处理约束。
实验结果
研究问题
- RQ1能否从公共领域和知识共享来源构建一个大规模、可合法分发的音乐、语音与噪声音频语料库?
- RQ2在MUSAN上训练的模型与在广泛使用但不可分发的GTZAN数据集上训练的模型相比,其在音乐/语音区分任务上的性能表现如何?
- RQ3在语音资源有限的条件下,基于MUSAN训练的GMM-VAD在多大程度上能提升说话人识别性能?
- RQ4包含多样化的噪声类型和非英语语音是否能增强VAD和区分系统在实际应用中的鲁棒性?
- RQ5在低资源说话人识别场景中,GMM+能量混合VAD与基线仅基于能量的VAD相比,性能表现如何?
主要发现
- MUSAN语料库包含109小时音频,其中包括60小时语音(来自Librivox和美国政府录音)、42.5小时音乐(来自多种流派和来源)以及6小时多样的噪声样本。
- 在MUSAN上训练的基于GMM的音乐/语音区分模型,使用16个分量时EER达到3.75%,与在GTZAN数据集上训练的模型(EER为3.85%)性能相当。
- 在仅提供1秒语音的情况下,添加基于GMM的VAD使说话人识别EER最高降低23.16%,相比基线仅基于能量的VAD。
- GMM+能量VAD在所有测试时长下均优于仅基于能量的VAD,最大相对提升(23.16%)出现在1秒语音条件下。
- 该语料库在灵活的知识共享许可下完全可分发,所有音频文件均正确标注来源和许可信息,支持商业用途。
- 结果表明,MUSAN是训练鲁棒VAD和音乐/语音区分系统的可行且合法的替代方案,可替代现有数据集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。