Skip to main content
QUICK REVIEW

[论文解读] Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System

Weicheng Cai, Jinkun Chen|arXiv (Cornell University)|Apr 14, 2018
Speech Recognition and Synthesis参考文献 16被引用 37
一句话总结

本文提出了一种统一的端到端系统,用于说话人和语言识别,通过先进的编码层和判别性损失函数提升性能。该方法引入了可学习词典编码(LDE)层和自注意力池化(SAP),以生成鲁棒的语音段级表征;同时,中心损失和角度软max损失增强了说话人嵌入的判别能力,在NIST LRE 07上实现高达63%的错误率相对降低,在说话人验证任务中实现20%的错误率降低。

ABSTRACT

In this paper, we explore the encoding/pooling layer and loss function in the end-to-end speaker and language recognition system. First, a unified and interpretable end-to-end system for both speaker and language recognition is developed. It accepts variable-length input and produces an utterance level result. In the end-to-end system, the encoding layer plays a role in aggregating the variable-length input sequence into an utterance level representation. Besides the basic temporal average pooling, we introduce a self-attentive pooling layer and a learnable dictionary encoding layer to get the utterance level representation. In terms of loss function for open-set speaker verification, to get more discriminative speaker embedding, center loss and angular softmax loss is introduced in the end-to-end system. Experimental results on Voxceleb and NIST LRE 07 datasets show that the performance of end-to-end learning system could be significantly improved by the proposed encoding layer and loss function.

研究动机与目标

  • 开发一种统一且可解释的端到端系统,用于同时进行说话人和语言识别,能够处理可变长度的语音输入。
  • 研究不同编码层(时间平均池化、自注意力池化(SAP)和可学习词典编码(LDE))对语音段级表征学习的影响。
  • 评估判别性损失函数(包括中心损失和角度软max(A-Softmax))在提升开放集验证中说话人嵌入质量方面的有效性。
  • 在标准基准数据集(VoxCeleb 和 NIST LRE 07)上,比较端到端系统与传统 i-vector 基线系统的性能。

提出的方法

  • 前端使用深度卷积神经网络(ResNet-34)从原始语音中提取帧级特征,随后通过可学习编码层生成语音段级表征。
  • 评估了三种编码层:时间平均池化(TAP)、自注意力池化(SAP)和可学习词典编码(LDE),其中 LDE 使用 64 个词典单元。
  • 在端到端训练中集成判别性损失函数——中心损失(λ=0.001)和角度软max损失(m=4),以增强嵌入的判别能力。
  • 使用动量为 0.9 和权重衰减为 1e-4 的随机梯度下降进行训练,学习率在损失值达到平台期时进行衰减。
  • 在开放集验证中,从倒数第二层提取 128 维说话人嵌入,并使用余弦相似度或 PLDA 进行评分。
  • 通过将每批次的语音随机裁剪或扩展至 300–800 帧进行数据增强,以提升对可变长度输入的鲁棒性。

实验结果

研究问题

  • RQ1不同编码层(TAP、SAP、LDE)如何影响端到端说话人与语言识别系统的性能?
  • RQ2集成中心损失和角度软max损失是否能提升开放集验证中说话人嵌入的判别性?
  • RQ3端到端系统在标准数据集(如 VoxCeleb 和 NIST LRE 07)上的性能与传统 i-vector 基线相比如何?
  • RQ4在使用判别性损失训练的端到端系统中,使用 PLDA 作为相似性度量是否能带来一致的性能提升?

主要发现

  • CNN-LDE 系统在 NIST LRE 07 3 秒任务上的错误率相比 TAP-Softmax 基线降低了 25%。
  • 在 10 秒和 30 秒的 NIST LRE 07 任务中,CNN-LDE 系统分别实现了 45% 和 63% 的错误率相对降低。
  • 在 VoxCeleb 说话人识别任务中,基于 LDE 的系统相比 TAP 基线将错误率降低了 12%。
  • LDE-A-Softmax 系统在说话人验证中表现最佳,C_det 为 0.441,EER 为 4.56%,相比 TAP-Softmax 基线实现了 20% 的错误率相对降低。
  • PLDA 在传统 i-vector 系统中带来了显著性能提升,但在使用判别性损失训练的端到端系统中,其提升有限甚至可能降低性能。
  • LDE 层在所有评估任务中均优于 TAP 和 SAP 层,证明其在学习鲁棒语音段级表征方面的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。