QUICK REVIEW

[论文解读] Representation Selective Self-distillation and wav2vec 2.0 Feature Exploration for Spoof-aware Speaker Verification

Jin Woo Lee, Eungbeom Kim|arXiv (Cornell University)|Apr 6, 2022

Speech Recognition and Synthesis参考文献 36被引用 13

一句话总结

该论文提出了一种欺骗感知说话人验证（SASV）系统，利用基于wav2vec 2.0的反欺骗网络提取的解耦表征，以提升抗欺骗鲁棒性。通过采用表征选择性自蒸馏（RSSD）方法，该方法在SASV Challenge 2022数据集上实现了1.08%的等错误率（EER），通过自监督特征蒸馏有效整合了欺骗检测与说话人验证，显著优于基线模型。

ABSTRACT

Text-to-speech and voice conversion studies are constantly improving to the extent where they can produce synthetic speech almost indistinguishable from bona fide human speech. In this regard, the importance of countermeasures (CM) against synthetic voice attacks of the automatic speaker verification (ASV) systems emerges. Nonetheless, most end-to-end spoofing detection networks are black-box systems, and the answer to what is an effective representation for finding artifacts remains veiled. In this paper, we examine which feature space can effectively represent synthetic artifacts using wav2vec 2.0, and study which architecture can effectively utilize the space. Our study allows us to analyze which attribute of speech signals is advantageous for the CM systems. The proposed CM system achieved 0.31% equal error rate (EER) on ASVspoof 2019 LA evaluation set for the spoof detection task. We further propose a simple yet effective spoofing aware speaker verification (SASV) method, which takes advantage of the disentangled representations from our countermeasure system. Evaluation performed with the SASV Challenge 2022 database show 1.08% of SASV EER. Quantitative analysis shows that using the explored feature space of wav2vec 2.0 advantages both spoofing CM and SASV.

研究动机与目标

确定预训练的XLSR-53 wav2vec 2.0模型中哪一层提供最有效的特征空间以检测合成语音伪影。
评估轻量级后端模型在结合最优自监督特征时是否能超越复杂架构。
通过利用反欺骗网络提取的解耦表征，设计一种简单但高效的欺骗感知说话人验证（SASV）系统。
研究如何利用自蒸馏技术选择性地增强基于欺骗反制嵌入的说话人验证。

提出的方法

本研究使用XLSR-53（一种多语言wav2vec 2.0模型）作为前端特征提取器，将原始音频映射到高层表征。
作者评估了XLSR-53模型中不同Transformer块输出（第1至17层），以确定哪一层最能揭示语音中的欺骗伪影。
采用一种简单的后端架构，即带有全连接层的注意力统计池化（ASP）层，用于分类欺骗语音与真实语音，替代复杂的模型如AASIST。
所提出的表征选择性自蒸馏（RSSD）模块通过欺骗反制嵌入选择性调制说话人嵌入，实现说话人验证与欺骗检测的联合优化。
RSSD框架采用门控机制和可学习变换层，基于欺骗可能性自适应地优化说话人嵌入。
系统通过在说话人验证任务上使用对比损失，以及在欺骗检测任务上使用二元交叉熵损失，实现端到端联合训练，从而联合优化两项任务。

实验结果

研究问题

RQ1预训练的XLSR-53 wav2vec 2.0模型中哪一层产生最具判别力的表征，以检测合成语音伪影？
RQ2当与wav2vec 2.0提供的最优自监督特征结合时，像ASP或MLP这样的简单后端模型是否能超越AASIST等复杂模型？
RQ3如何设计一种欺骗感知说话人验证系统，以有效利用反欺骗网络提取的解耦表征？
RQ4表征选择性自蒸馏在多大程度上提升了说话人验证在欺骗攻击下的鲁棒性？

主要发现

XLSR-53的第5层为欺骗检测提供了最有效的特征表征，在ASVspoof 2019 LA评估集上实现了最低的等错误率（EER）0.31%。
使用ASP后端与XLSR-53作为前端的模型优于AASIST和MLP，实现了0.3%的EER，证明了注意力池化在自监督特征上的有效性。
所提出的基于RSSD的SASV系统在SASV Challenge 2022数据集上实现了1.08%的EER，显著优于使用AASIST或sinc-卷积前端的基线系统。
t-SNE可视化显示，XLSR-ASP模型的嵌入在真实语音与欺骗语音之间实现了更优的解耦，甚至能区分TTS和VC等不同攻击类型。
研究发现，当与最优自监督特征提取器结合时，简单的ASP后端可超越复杂后端，表明特征质量比模型复杂度更为关键。
RSSD模块通过选择性调制说话人嵌入（利用欺骗反制输出）成功提升了说话人验证性能，实现了计算开销低的最先进结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。