QUICK REVIEW

[论文解读] Deep Speaker: an End-to-End Neural Speaker Embedding System

Chao Li, Xiaokong Ma|arXiv (Cornell University)|May 5, 2017

Speech Recognition and Synthesis参考文献 14被引用 426

一句话总结

Deep Speaker 提出端到端的说话人嵌入，映射到超球面，使用 ResCNN 或 GRU 框架提取器，配合三元组损失和 softmax 预训练，在相对于 i-vector 基线方面取得显著提升，并实现跨语言转移。

ABSTRACT

We present Deep Speaker, a neural speaker embedding system that maps utterances to a hypersphere where speaker similarity is measured by cosine similarity. The embeddings generated by Deep Speaker can be used for many tasks, including speaker identification, verification, and clustering. We experiment with ResCNN and GRU architectures to extract the acoustic features, then mean pool to produce utterance-level speaker embeddings, and train using triplet loss based on cosine similarity. Experiments on three distinct datasets suggest that Deep Speaker outperforms a DNN-based i-vector baseline. For example, Deep Speaker reduces the verification equal error rate by 50% (relatively) and improves the identification accuracy by 60% (relatively) on a text-independent dataset. We also present results that suggest adapting from a model trained with Mandarin can improve accuracy for English speaker recognition.

研究动机与目标

为说话人识别建立一个稳健的端到端嵌入方法，直接优化语句级相似性。
开发并比较两种深度架构（ResCNN 和 GRU）用于帧级特征提取。
通过均值池化和余弦归一化来学习话语嵌入，并以三元组损失进行优化。
通过软max 预训练和跨 GPU 的难负样本挖掘来提升收敛性。
演示跨语言转移（Mandarin-English）以及数据规模和 enrollment 说话样本的影响。

提出的方法

使用两种深度架构来提取帧级特征：一个残差 CNN（ResCNN）和一个堆叠的 GRU 网络。
应用句级平均池化来产生话语表示，随后进行仿射投影到 512 维嵌入并进行长度归一化。
采用基于余弦的三元组损失，强制同一说话人对之间的相似度高于不同说话人对之间的相似度，使用在跨 GPU 找到的困难负样本。
在三元组损失微调之前，采用带分类层的 softmax 预训练来稳定/初始化训练。
通过跨 GPU 扫描以在小批量中选择具有挑战性的负样本，探索难负样本挖掘，以提升收敛性。
可选通过嵌入融合或分数融合来将 ResCNN 与 GRU 结合，以提升性能。

实验结果

研究问题

RQ1端到端嵌入学习结合三元组损失是否在文本独立和文本依赖任务中优于传统的 i-vector 基线？
RQ2ResCNN 和 GRU 架构在为 Mandarin 和 English 数据集产生鲁棒说话人嵌入方面有何差异？
RQ3softmax 预训练和跨 GPU 的难负样本挖掘对训练稳定性和最终准确性有何影响？
RQ4训练数据规模、 enrollment 话语样本数量以及跨语言适应性如何影响性能？
RQ5Deep Speaker 是否能够跨语言转移（Mandarin 到 English）并在文本依赖情景中保持有效？

主要发现

相对于 DNN i-vectors，Deep Speaker 在 Mandarin UIDs 上将验证等效错误率（EER）降低大约 50-80%，识别错误率降低 60-70%。
softmax 预训练再加上三元组微调在 ResCNN 和 GRU 两者上都取得了最佳性能。
在 Mandarin 文本独立任务中，ResCNN 结合 softmax+triplet 达到 2.23% 的 EER 和 90.53% 的 ACC，相较于 DNN i-vector 基线的 13.79% EER 和 51.72% ACC。
在 MTurk English 数据上，微调后的模型取得显著提升（例如 EER 降幅约 2.4-2.7%，并获得高 ACC）。
将训练数据从 Train50k 扩大到 Train250k 可提升性能（例如 ResCNN：EER 从 2.23% 提升至 1.83%；ACC 从 90.53% 提升至 92.58%）。
enrollment 语句数量可以改善 EER/ACC，但收益呈边际递减（例如从 1 增到 5 的 enrollment 能带来显著提升）。
在大规模（text-independent）数据上训练的 Deep Speaker 模型能够有效迁移到 text-dependent 的 XiaoDu 和跨语言 MTurk 任务，进一步微调可获得更好结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。