Skip to main content
QUICK REVIEW

[论文解读] Crafting Adversarial Examples For Speech Paralinguistics Applications

Yuan Gong, Christian Poellabauer|arXiv (Cornell University)|Nov 9, 2017
Adversarial Robustness in Machine Learning参考文献 31被引用 85
一句话总结

本文提出一种端到端的方法,直接在原始音频波形上生成对抗扰动,以攻击端到端的语音副语言特征模型,并在最小的音频失真下实现有效的错分。

ABSTRACT

Computational paralinguistic analysis is increasingly being used in a wide range of cyber applications, including security-sensitive applications such as speaker verification, deceptive speech detection, and medical diagnostics. While state-of-the-art machine learning techniques, such as deep neural networks, can provide robust and accurate speech analysis, they are susceptible to adversarial attacks. In this work, we propose an end-to-end scheme to generate adversarial examples for computational paralinguistic applications by perturbing directly the raw waveform of an audio recording rather than specific acoustic features. Our experiments show that the proposed adversarial perturbation can lead to a significant performance drop of state-of-the-art deep neural networks, while only minimally impairing the audio quality.

研究动机与目标

  • 证明对抗扰动可以直接添加到原始语音波形中,从而干扰副语言学分类任务。
  • 提出一个端到端的对抗攻击方案,避免对特征重构造成的损失。
  • 通过采用基于CNN的替代架构(WaveCNN)来应对基于RNN的模型中的梯度消失问题。
  • 展示扰动在不同的副语言任务和模型之间具有泛化性。
  • 提供对对抗性音频的攻击有效性与感知自然性的实证分析。

提出的方法

  • 将对抗扰动在原始波形 x 上约束优化为一个问题,使扰动 η 满足 f(x+η) ≠ f(x)。
  • 使用基于梯度的 FGSM 来计算 η = ε sign(∇_x J(θ, x, y))。
  • 用前馈替代(WaveCNN)替换循环网络,以克服 RNN 中的梯度消失问题。
  • 将音频按 40 ms 的帧处理,应用前端卷积神经网络,随后是后端卷积神经网络(WaveCNN),以实现端到端的攻击可行性。
  • 将端到端波形扰动与特征层次和基于 MFCC 的攻击进行比较,以突出感知失真更小。
  • 通过展示为 WaveCNN 生成的扰动也会影响 WaveRNN 式模型来评估攻击的可迁移性。

实验结果

研究问题

  • RQ1是否可以直接在原始音频波形上有效地制作对抗扰动,以欺骗副语言学分类器?
  • RQ2端到端扰动方法是否避免了特征重构带来的损失,仍然降低模型性能?
  • RQ3基于 CNN 的替代模型(WaveCNN)是否能够缓解基于梯度的音频攻击中的梯度消失问题?
  • RQ4对抗性样本是否会在不同的端到端副语言架构和任务(性别、情感、说话人识别)间迁移?

主要发现

  • 在适度的 ε 值下,对抗扰动在性别、情感和说话人识别任务中显著提高错误率。
  • 对 WaveCNN(替代模型)的攻击能够泛化到 WaveRNN 式模型,错误率表现因 ε 而异。
  • 端到端波形扰动相较于基于 MFCC 的重构,感知失真最小,保持自然听感。
  • 人类听感测试表明,所提出的对抗样本被感知为自然,并且在人情感和性别任务中被人类正确分类。
  • 扰动频谱范围广,简单的滤波对消除攻击无效。
  • 在某些 ε 值下,扰动甚至可以使性能接近随机,显示出攻击的强烈影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。