QUICK REVIEW

[论文解读] Replay attack spoofing detection system using replay noise by multi-task learning.

Hye-jin Shim, Jee-weon Jung|arXiv (Cornell University)|Aug 29, 2018

Speech Recognition and Synthesis被引用 1

一句话总结

本文提出了一种用于自动说话人验证中重放攻击欺骗检测的多任务学习框架，通过利用播放设备、录音环境和录音设备的重放噪声分类，结合在 ASVspoof2017 数据集上的联合训练，使欺骗检测性能相对提升了 30%。

ABSTRACT

In this paper, we propose a replay attack spoofing detection system for automatic speaker verification using multitask learning of noise classes. We define the noise that is caused by the replay attack as replay noise. We explore the effectiveness of training a deep neural network simultaneously for replay attack spoofing detection and replay noise classification. The multi-task learning includes classifying the noise of playback devices, recording environments, and recording devices as well as the spoofing detection. Each of the three types of the noise classes also includes a genuine class. The experiment results on the ASVspoof2017 datasets demonstrate that the performance of our proposed system is improved by 30% relatively on the evaluation set.

研究动机与目标

解决自动说话人验证系统在重放攻击下的脆弱性问题。
通过建模重放攻击过程中引入的独特噪声特征来提升欺骗检测性能。
探索在欺骗检测任务之外，联合训练多个与噪声相关的分类任务所带来的优势。
对来自不同来源的重放噪声进行分类：播放设备、录音环境和录音设备，包括真实语音作为一类。

提出的方法

将重放噪声定义为在重放攻击过程中引入的声学失真，与真实语音信号相区别。
设计一个深度神经网络，同时在欺骗检测和三个噪声分类任务（播放设备、录音环境、录音设备）上进行训练。
在每个噪声类别中包含一个“真实”类别，以区分自然语音与伪造信号。
使用多任务学习训练模型，使欺骗检测与噪声分类任务之间共享表示。
使用 ASVspoof2017 数据集进行训练与评估，利用其多样的重放攻击场景。
通过共享主干网络和每个分类目标的任务特定头来优化模型。

实验结果

研究问题

RQ1联合学习重放噪声分类与欺骗检测是否能提升检测性能？
RQ2对播放设备、录音环境和录音设备的噪声分类在区分伪造与真实语音方面的有效性如何？
RQ3引入多种噪声类别类型是否能增强欺骗检测的鲁棒性？
RQ4与单任务基线相比，多任务学习方法的相对性能提升是多少？

主要发现

所提出的多任务学习系统在 ASVspoof2017 评估集上实现了欺骗检测性能 30% 的相对提升。
在重放噪声与欺骗检测任务上进行联合训练，相比单任务模型具有更好的泛化能力。
在每个噪声类别中包含真实语音类别，提升了模型区分自然语音与伪造信号的能力。
对播放设备、录音环境和录音设备的噪声分类有助于实现更鲁棒的欺骗检测。
该系统通过在多个噪声与欺骗任务之间共享表示，实现了更高的检测准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。