Skip to main content
QUICK REVIEW

[论文解读] CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition

Xuejing Yuan, Yuxuan Chen|arXiv (Cornell University)|Jan 24, 2018
Adversarial Robustness in Machine Learning参考文献 23被引用 163
一句话总结

本论文提出 CommanderSong,一种将语音命令嵌入到可被 ASR 系统识别的歌曲中的实用方法,支持空中攻击(WAA)和直接 WAV 输入(WTA),并提出防御。

ABSTRACT

The popularity of ASR (automatic speech recognition) systems, like Google Voice, Cortana, brings in security concerns, as demonstrated by recent attacks. The impacts of such threats, however, are less clear, since they are either less stealthy (producing noise-like voice commands) or requiring the physical presence of an attack device (using ultrasound). In this paper, we demonstrate that not only are more practical and surreptitious attacks feasible but they can even be automatically constructed. Specifically, we find that the voice commands can be stealthily embedded into songs, which, when played, can effectively control the target system through ASR without being noticed. For this purpose, we developed novel techniques that address a key technical challenge: integrating the commands into a song in a way that can be effectively recognized by ASR through the air, in the presence of background noise, while not being detected by a human listener. Our research shows that this can be done automatically against real world ASR applications. We also demonstrate that such CommanderSongs can be spread through Internet (e.g., YouTube) and radio, potentially affecting millions of ASR users. We further present a new mitigation technique that controls this threat.

研究动机与目标

  • 利用歌曲作为载体,对现代基于 DNN 的 ASR 系统进行实际的对抗性攻击并进行演示。
  • 展示此类 CommanderSongs 可以通过在线媒体(如 YouTube)分发并传播给大量的 ASR 用户。
  • 开发并评估针对 CommanderSong 攻击的防御机制。
  • 评估人类对 CommanderSongs 的感知性,以及对不同 ASR 平台的可迁移性。

提出的方法

  • 以 Kaldi ASR 为目标,研究攻击流程。
  • 通过梯度下降对齐 pdf-id 序列来构造对抗性音频,在尽量减小扰动的同时实现命令解码。
  • 定义一个 pdf-id 序列匹配目标,以将原始歌曲与目标命令的 DNN 后验输出之间的 L1 距离最小化。
  • 整合通用噪声模型,以仿真说话人和录音接收端的噪声,用于空中攻击。
  • 加入随机噪声,以提高跨说话人和接收端的鲁棒性,用于 WAA 攻击。
  • 在多条命令和多首歌曲上评估 WTA 和 WAA 攻击,并进行人类感知度调查。

实验结果

研究问题

  • RQ1是否有可能构建在现实声学环境中正常工作的对抗性攻击来针对 ASR 系统?
  • RQ2对抗性音频是否足够隐蔽,能被 ASR 识别而不被人类注意?
  • RQ3此类对抗样本是否可以通过在线媒体远程传送并影响大量设备?
  • RQ4有哪些防御措施可以缓解针对当前 ASR 系统的 CommanderSong 攻击?

主要发现

  • CommanderSong 在 Kaldi 上对 WTA 攻击在所有测试命令中对注入的命令解码取得 100% 成功。
  • WAA 攻击在使用 JBL 扬声器的伪 IVC 设备上成功率高达 96%,在空中环境下信噪比低于 2 dB。
  • WTA 攻击的平均信噪比范围为 14–18.6 dB,表明扰动在约 4% 以下,同时保持高识别率。
  • CommanderSongs 在盲盒场景下对 iFLYTEK 展现出可迁移性(无代码/模型访问)。
  • 通过 MTurk 的人工研究表明参与者没有识别出嵌入在 CommanderSongs 中的命令。
  • 两种防御方法——音频湍流(audio turbulence)和音频挤压(audio squeezing)——对该攻击显示出有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。