Skip to main content
QUICK REVIEW

[论文解读] Semi-Supervised Contrastive Learning with Generalized Contrastive Loss and Its Application to Speaker Recognition

Nakamasa Inoue, Keita Goto|arXiv (Cornell University)|Jun 8, 2020
Speech Recognition and Synthesis参考文献 25被引用 29
一句话总结

本文提出了一种统一的半监督对比学习框架,采用广义对比损失(Generalized Contrastive Loss, GCL)实现与文本无关的说话人验证。GCL 将监督度量学习与无监督对比学习无缝整合到单一损失函数中,无需修改网络架构或损失函数,即可在监督、半监督和无监督设置下实现有效训练。在 VoxCeleb 数据集上,该方法在半监督学习中实现了 6.01% 的等错误率(EER),在无监督学习中实现了 15.26% 的 EER,优于以往无需使用视觉数据的无监督方法。

ABSTRACT

This paper introduces a semi-supervised contrastive learning framework and its application to text-independent speaker verification. The proposed framework employs generalized contrastive loss (GCL). GCL unifies losses from two different learning frameworks, supervised metric learning and unsupervised contrastive learning, and thus it naturally determines the loss for semi-supervised learning. In experiments, we applied the proposed framework to text-independent speaker verification on the VoxCeleb dataset. We demonstrate that GCL enables the learning of speaker embeddings in three manners, supervised learning, semi-supervised learning, and unsupervised learning, without any changes in the definition of the loss function.

研究动机与目标

  • 将监督度量学习与无监督对比学习统一到一个框架中,用于半监督学习。
  • 开发一种损失函数,天然支持三种学习范式——监督、半监督和无监督,且无需修改。
  • 在不使用预训练模型或辅助信号(如视频)的情况下,利用未标注数据提升说话人验证性能。
  • 评估 GCL 在真实说话人识别中常见的低资源标注场景下的有效性。

提出的方法

  • 所提出的框架采用广义对比损失(GCL),将监督度量学习与无监督对比学习统一为单一目标函数。
  • GCL 使用嵌入之间的余弦相似度定义基于相似度的损失项,并引入可学习的缩放与偏移参数:$ s(\mathbf{z}, \mathbf{z}^\prime) = \exp(\gamma \cos(\mathbf{z}, \mathbf{z}^\prime) + \beta) $。
  • 损失函数同时包含正样本对与负样本对,标签表示样本对是否来自同一说话人(1)或不同说话人(0),并根据标签置信度分配相应的损失权重。
  • 在半监督学习中,框架默认将未标注样本视为负样本对,所有设置下采用一致的标签策略。
  • 该方法通过数据增强(MUSAN、RIR)从未标注语音中构建正样本对,实现在无标签情况下的对比学习。
  • 模型采用 ResNet18 架构,以 40 维滤波器组特征作为输入,端到端使用 GCL 进行训练。

实验结果

研究问题

  • RQ1单一损失函数能否在说话人嵌入学习中有效支持监督、半监督和无监督学习?
  • RQ2在不使用预训练模型或辅助数据(如视频)的情况下,基于 GCL 的框架在半监督说话人验证中的表现如何?
  • RQ3在低资源标注设置下,未标注数据能在多大程度上提升性能?
  • RQ4在无视觉监督条件下,基于 GCL 的方法与当前最先进的无监督和半监督说话人验证方法相比表现如何?

主要发现

  • 所提出的 GCL 框架在 VoxCeleb 上的半监督说话人验证中实现了 6.01% 的等错误率(EER),与先前使用预训练 ASR 模型的方法性能相当。
  • 在无监督学习中,该方法实现了 15.26% 的 EER,优于文献 [19] 中使用人脸图像进行监督的跨模态自监督方法。
  • 该框架无需修改损失函数或网络架构,即可在监督、半监督和无监督三种学习模式下实现一致的训练。
  • 当标注数据稀缺时,性能提升最为显著,证明了在低资源设置下未标注数据的有效性。
  • 在无数据增强的监督训练中,该方法实现了 2.56% 的 EER,尽管仍低于使用 AM-Softmax 和微调达到的 1.81% EER。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。