QUICK REVIEW

[论文解读] Speaker Verification using Convolutional Neural Networks

Hossein Salehghaffari|arXiv (Cornell University)|Mar 14, 2018

Speech Recognition and Synthesis参考文献 20被引用 20

一句话总结

本文提出了一种新颖的端到端说话人验证系统，采用基于MFCC特征的孪生卷积神经网络（CNN）架构，联合学习说话人特定特征与说话人内不变特征。通过使用有效的样本对选择策略，对预训练的背景模型进行孪生学习微调，该方法在VoxCeleb数据集上实现了10.5%的等错误率（EER），优于传统的GMM-UBM和i-vector基线方法。

ABSTRACT

In this paper, a novel Convolutional Neural Network architecture has been developed for speaker verification in order to simultaneously capture and discard speaker and non-speaker information, respectively. In training phase, the network is trained to distinguish between different speaker identities for creating the background model. One of the crucial parts is to create the speaker models. Most of the previous approaches create speaker models based on averaging the speaker representations provided by the background model. We overturn this problem by further fine-tuning the trained model using the Siamese framework for generating a discriminative feature space to distinguish between same and different speakers regardless of their identity. This provides a mechanism which simultaneously captures the speaker-related information and create robustness to within-speaker variations. It is demonstrated that the proposed method outperforms the traditional verification methods which create speaker models directly from the background model.

研究动机与目标

通过学习能够捕捉说话人间差异但对说话人内变化具有鲁棒性的判别性说话人表征，提升文本无关说话人验证性能。
克服传统方法依赖平均背景模型输出来构建说话人模型的局限性。
开发一种端到端可训练的系统，通过孪生学习联合优化说话人判别力与鲁棒性。
研究主动样本对选择在孪生网络训练中的影响，以提升验证性能。
证明通过孪生学习微调预训练CNN可获得优于标准特征平均的说话人嵌入。

提出的方法

采用双流孪生CNN架构，通过比较语音对来学习共享嵌入空间，使得同说话人对的距离较近，不同说话人对的距离较远。
网络首先在背景模型上使用交叉熵损失进行分类器预训练，随后使用带边距M的对比损失函数进行微调。
对比损失定义为：$ L_W = \frac{1}{N} \sum_{i=1}^N \left[ Y \cdot \frac{1}{2} D_W^2 + (1-Y) \cdot \frac{1}{2} \max\{0, M - D_W\}^2 + \lambda \|W\|_2 \right] $，其中 $ D_W $ 为嵌入向量间的L2距离。
孪生模型以初始的0.00001学习率训练20个周期，微调过程中未冻结任何层。
通过平均每个说话人所有语音样本的最终嵌入向量构建说话人模型，并在评估阶段使用余弦相似度进行打分。
采用主动样本对选择方法，通过优先选择困难负样本对，提升训练效率与性能。

实验结果

研究问题

RQ1在MFCC特征上训练的孪生CNN架构是否能优于传统的说话人验证系统（如GMM-UBM和i-vector）？
RQ2通过孪生学习微调预训练背景模型，是否能提升说话人表征质量，相比仅对嵌入进行平均？
RQ3主动样本对选择在提升所学习嵌入空间判别能力方面的有效性如何？
RQ4端到端训练CNN用于说话人验证是否能优于两阶段方法？
RQ5基于边距的对比损失对说话人嵌入泛化能力有何影响？

主要发现

所提方法在VoxCeleb测试集上实现了10.5%的等错误率（EER），显著优于GMM-UBM基线（17.1% EER）。
i-vector系统结合PLDA的EER为11.5%，而所提CNN-256结合样本对选择的EER为10.5%，表明性能有明显提升。
与CNN-2048基线（11.3% EER）相比，孪生微调策略使EER降低了1.3个百分点，表明判别性训练具有显著优势。
该方法优于i-vector + PLDA系统，后者在说话人验证中被视为强基线。
在孪生训练中使用主动样本对选择，有助于提升收敛速度与性能，优于随机采样。
无权重冻结的完整网络微调策略相比部分微调，泛化能力更优，该结论经消融实验验证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。