QUICK REVIEW

[论文解读] Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System

Weicheng Cai, Jinkun Chen|arXiv (Cornell University)|Apr 14, 2018

Speech Recognition and Synthesis参考文献 16被引用 37

一句话总结

本文提出了一种统一的端到端系统，用于说话人和语言识别，通过先进的编码层和判别性损失函数提升性能。该方法引入了可学习词典编码（LDE）层和自注意力池化（SAP），以生成鲁棒的语音段级表征；同时，中心损失和角度软max损失增强了说话人嵌入的判别能力，在NIST LRE 07上实现高达63%的错误率相对降低，在说话人验证任务中实现20%的错误率降低。

ABSTRACT

In this paper, we explore the encoding/pooling layer and loss function in the end-to-end speaker and language recognition system. First, a unified and interpretable end-to-end system for both speaker and language recognition is developed. It accepts variable-length input and produces an utterance level result. In the end-to-end system, the encoding layer plays a role in aggregating the variable-length input sequence into an utterance level representation. Besides the basic temporal average pooling, we introduce a self-attentive pooling layer and a learnable dictionary encoding layer to get the utterance level representation. In terms of loss function for open-set speaker verification, to get more discriminative speaker embedding, center loss and angular softmax loss is introduced in the end-to-end system. Experimental results on Voxceleb and NIST LRE 07 datasets show that the performance of end-to-end learning system could be significantly improved by the proposed encoding layer and loss function.

研究动机与目标

开发一种统一且可解释的端到端系统，用于同时进行说话人和语言识别，能够处理可变长度的语音输入。
研究不同编码层（时间平均池化、自注意力池化（SAP）和可学习词典编码（LDE））对语音段级表征学习的影响。
评估判别性损失函数（包括中心损失和角度软max（A-Softmax））在提升开放集验证中说话人嵌入质量方面的有效性。
在标准基准数据集（VoxCeleb 和 NIST LRE 07）上，比较端到端系统与传统 i-vector 基线系统的性能。

提出的方法

前端使用深度卷积神经网络（ResNet-34）从原始语音中提取帧级特征，随后通过可学习编码层生成语音段级表征。
评估了三种编码层：时间平均池化（TAP）、自注意力池化（SAP）和可学习词典编码（LDE），其中 LDE 使用 64 个词典单元。
在端到端训练中集成判别性损失函数——中心损失（λ=0.001）和角度软max损失（m=4），以增强嵌入的判别能力。
使用动量为 0.9 和权重衰减为 1e-4 的随机梯度下降进行训练，学习率在损失值达到平台期时进行衰减。
在开放集验证中，从倒数第二层提取 128 维说话人嵌入，并使用余弦相似度或 PLDA 进行评分。
通过将每批次的语音随机裁剪或扩展至 300–800 帧进行数据增强，以提升对可变长度输入的鲁棒性。

实验结果

研究问题

RQ1不同编码层（TAP、SAP、LDE）如何影响端到端说话人与语言识别系统的性能？
RQ2集成中心损失和角度软max损失是否能提升开放集验证中说话人嵌入的判别性？
RQ3端到端系统在标准数据集（如 VoxCeleb 和 NIST LRE 07）上的性能与传统 i-vector 基线相比如何？
RQ4在使用判别性损失训练的端到端系统中，使用 PLDA 作为相似性度量是否能带来一致的性能提升？

主要发现

CNN-LDE 系统在 NIST LRE 07 3 秒任务上的错误率相比 TAP-Softmax 基线降低了 25%。
在 10 秒和 30 秒的 NIST LRE 07 任务中，CNN-LDE 系统分别实现了 45% 和 63% 的错误率相对降低。
在 VoxCeleb 说话人识别任务中，基于 LDE 的系统相比 TAP 基线将错误率降低了 12%。
LDE-A-Softmax 系统在说话人验证中表现最佳，C_det 为 0.441，EER 为 4.56%，相比 TAP-Softmax 基线实现了 20% 的错误率相对降低。
PLDA 在传统 i-vector 系统中带来了显著性能提升，但在使用判别性损失训练的端到端系统中，其提升有限甚至可能降低性能。
LDE 层在所有评估任务中均优于 TAP 和 SAP 层，证明其在学习鲁棒语音段级表征方面的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。