QUICK REVIEW

[论文解读] Augmentation adversarial training for unsupervised speaker recognition.

Jaesung Huh, Hee Soo Heo|arXiv (Cornell University)|Jul 23, 2020

Speech Recognition and Synthesis参考文献 42被引用 35

一句话总结

本文提出了一种增强对抗性训练方法，通过使模型对模拟信道变化的数据增强具有鲁棒性，从而提升无监督说话人识别性能。通过训练网络对这些增强手段保持不变，模型能够将说话人身份与信道特征解耦，从而在VoxCeleb和VOiCES数据集上达到最先进性能，超越人类水平的准确率。

ABSTRACT

The goal of this work is to train robust speaker recognition models without speaker labels. Recent works on unsupervised speaker representations are based on contrastive learning in which they encourage within-utterance embeddings to be similar and across-utterance embeddings to be dissimilar. However, since the within-utterance segments share the same acoustic characteristics, it is difficult to separate the speaker information from the channel information. To this end, we propose augmentation adversarial training strategy that trains the network to be discriminative for the speaker information, while invariant to the augmentation applied. Since the augmentation simulates the acoustic characteristics, training the network to be invariant to augmentation also encourages the network to be invariant to the channel information in general. Extensive experiments on the VoxCeleb and VOiCES datasets show significant improvements over previous works using self-supervision, and the performance of our self-supervised models far exceed that of humans.

研究动机与目标

解决无监督说话人表征学习中说话人身份与信道特征难以解耦的挑战。
克服对比学习在无监督设置下的局限性，即由于共享声学特征导致同一语音内嵌入过于相似。
开发一种训练策略，增强模型对模拟信道效应的数据增强的不变性。
在无需说话人标签的情况下，提升自监督说话人模型的泛化能力和鲁棒性。
在标准基准上实现更优性能，超越先前的自监督方法，甚至超越人类水平的准确率。

提出的方法

应用时间掩码和频率掩码等数据增强技术，模拟语音数据中的信道变化。
使用对抗性策略进行模型训练，以鼓励对这些增强手段的不变性，同时保持说话人可区分性。
使用对比学习目标，拉近同一语音的嵌入，推远不同说话人的嵌入。
优化网络以对增强引起的变异保持鲁棒性，从而隐式忽略信道相关的伪影。
利用增强手段模拟真实信道效应的事实，使对增强的不变性有助于对实际信道变化的不变性。
使用自监督对比损失端到端训练，无需任何说话人级别标注。

实验结果

研究问题

RQ1在无说话人标签的情况下，使用数据增强的对抗性训练能否改善说话人表征学习？
RQ2对数据增强的不变性在多大程度上能提升说话人识别对信道变化的鲁棒性？
RQ3所提出的方法是否在标准说话人识别基准上超越现有的自监督对比学习方法？
RQ4使用该方法训练的自监督模型能否在说话人识别中超越人类水平的表现？
RQ5该模型在VoxCeleb和VOiCES等多样化数据集上的泛化能力如何？

主要发现

所提出的增强对抗性训练方法在无监督说话人识别任务中于VoxCeleb数据集上达到最先进性能。
在VOiCES数据集上，该模型显著优于先前的自监督方法。
自监督模型在VoxCeleb和VOiCES两个数据集上的表现均超过人类水平。
该方法通过学习对增强引起的变异保持不变，有效实现了说话人身份与信道特征的解耦。
由于对数据增强具有鲁棒性，该模型在恶劣信道条件下仍保持强劲性能。
结果证实，对增强的不变性能很好地泛化到真实世界中的信道变化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。