[论文解读] Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness
本文研究了对语音情感识别(SER)的黑盒对抗攻击,并提出基于 GAN 的防御,通过在分类前清理对抗噪声来提高鲁棒性。
Deep learning has undoubtedly offered tremendous improvements in the performance of state-of-the-art speech emotion recognition (SER) systems. However, recent research on adversarial examples poses enormous challenges on the robustness of SER systems by showing the susceptibility of deep neural networks to adversarial examples as they rely only on small and imperceptible perturbations. In this study, we evaluate how adversarial examples can be used to attack SER systems and propose the first black-box adversarial attack on SER systems. We also explore potential defenses including adversarial training and generative adversarial network (GAN) to enhance robustness. Experimental evaluations suggest various interesting aspects of the effective utilization of adversarial examples useful for achieving robustness for SER systems opening up opportunities for researchers to further innovate in this space.
研究动机与目标
- 在黑盒设定下,研究 SER 系统对对抗性音频扰动的易感性。
- 演示一种使用不可察觉的现实世界噪声的有效对抗攻击对 SER。
- 评估包括对抗性训练、随机噪声以及基于 GAN 的噪声去除在鲁棒性方面的防御策略。
- 表明在 SER 分类前进行 GAN 清理比先前的防御更能提高鲁棒性。
提出的方法
- 通过在 SER 输入中加入来自现实世界背景噪声(咖啡馆、会议、车站)且不可察觉的噪声来生成对抗性音频样本。
- 使用 eGeMAPS 特征和基于 LSTM 的分类器建模 SER 任务;在 IEMOCAP 和 FAU‑AIBO 上评估说话人无关的设置。
- 评估对抗样本的人类可感知性和对 SER 的攻击成功率。
- 比较防御方法:对抗性训练、随机噪声训练,以及在分类前清理对抗扰动的基于 GAN 的去噪框架。
- 实现带有 G(自编码器风格的 LSTM)和 D(编码器-解码器)的 GAN,用以去除对抗噪声,在混合数据集上训练。
实验结果
研究问题
- RQ1在不访问模型参数的情况下,黑盒对抗攻击是否能欺骗 SER 系统?
- RQ2现实世界背景噪声是否能作为对 SER 的有效且不可察觉的对抗扰动?
- RQ3在对抗扰动下,哪种防御机制最有效地恢复 SER 的性能?
- RQ4基于 GAN 的去噪在 SER 鲁棒性方面是否优于对抗性训练或随机噪声增强?
主要发现
- 在黑盒条件下,对抗扰动显著提高 IEMOCAP 和 FAU‑AIBO 的 SER 错误率。
- 对抗性训练降低错误率,但不如基于 GAN 的去噪有效。
- 以随机噪声训练在对抗性音频攻击面前提供的鲁棒性提升有限。
- 基于 GAN 的防御在清理被扰动的话语后显著降低分类错误率,优于对抗性训练和随机噪声方法。
- 基于 GAN 的防御在两个数据集和多种噪声类型上显示出一致的鲁棒性提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。