QUICK REVIEW

[论文解读] Inaudible Voice Commands

Liwei Song, Prateek Mittal|arXiv (Cornell University)|Aug 24, 2017

Adversarial Robustness in Machine Learning参考文献 4被引用 37

一句话总结

本文提出了一种新颖的不可听语音命令攻击，利用麦克风的非线性特性，通过超声波注入隐藏语音命令，实现对物联网设备（如安卓手机和亚马逊Echo）的无声控制。该方法在距离达3米时，安卓设备成功率100%，Echo设备成功率80%，通过精心设计的超声波信号诱发互调失真，在麦克风输出中生成可听命令。

ABSTRACT

Voice assistants like Siri enable us to control IoT devices conveniently with voice commands, however, they also provide new attack opportunities for adversaries. Previous papers attack voice assistants with obfuscated voice commands by leveraging the gap between speech recognition system and human voice perception. The limitation is that these obfuscated commands are audible and thus conspicuous to device owners. In this paper, we propose a novel mechanism to directly attack the microphone used for sensing voice data with inaudible voice commands. We show that the adversary can exploit the microphone's non-linearity and play well-designed inaudible ultrasounds to cause the microphone to record normal voice commands, and thus control the victim device inconspicuously. We demonstrate via end-to-end real-world experiments that our inaudible voice commands can attack an Android phone and an Amazon Echo device with high success rates at a range of 2-3 meters.

研究动机与目标

开发一种隐蔽攻击方法，实现对语音激活物联网设备的控制，且不被人类察觉。
利用市售麦克风固有的非线性特性，将不可听的超声波转换为可识别的语音命令。
设计一种实用的端到端超声波注入技术，在无需设备修改的情况下实现真实距离（2–3米）下的攻击。
在多种消费类设备（包括安卓手机和亚马逊Echo）上，于真实环境下展示高成功率。
证明该攻击可在通用硬件上执行，且无需了解语音识别模型（黑盒环境）。

提出的方法

利用麦克非线性引起的互调失真，即输入的超声波信号在可听频段产生新的频率分量。
采用频率为30kHz的载波进行幅度调制，将语音信号频谱移至超声范围，确保不可听性。
将正常语音命令信号通过插值上采样至192kHz，以在调制前保留频谱分辨率。
通过将调制后的语音信号与载波信号相加，构建最终攻击信号，使其能通过麦克风的非线性响应实现解调。
使用功率放大器和高音扬声器传输超声波信号，确保在2–3米距离内可靠检测。
依赖麦克风的低通滤波器和ADC捕获生成的可听分量，这些分量随后被语音助手解释为有效语音命令。

实验结果

研究问题

RQ1是否可以设计出不可听的超声波信号，使其在标准麦克风输出中因非线性失真而产生可识别的语音命令？
RQ2使用通用音频设备，此类不可听命令在实际距离（2–3米）内可传输多远？
RQ3在真实世界条件下，该攻击对真实设备（如安卓手机和亚马逊Echo）的有效性如何？
RQ4不同麦克风类型下，输入功率与攻击距离之间有何关系？
RQ5该攻击是否可在不修改目标设备或无需了解语音识别模型的情况下执行？

主要发现

在输入功率18.7W条件下，该攻击在3米距离处对安卓手机实现了100%的成功率。
在相同条件下，对亚马逊Echo设备在2米距离处实现了80%的成功率。
攻击距离随输入功率增加而提升：安卓手机在23.7W功率下达到354cm，Echo设备在相同功率下达到239cm。
频谱图分析证实，超声波信号不可听（>20kHz），但麦克风输出中包含与原始语音命令频谱形状高度匹配的分量。
通过使用标准笔记本电脑、音频放大器和高音扬声器，在真实环境中成功演示了该攻击，证实其可使用市售组件实现。
该方法无需设备特定校准或修改，且作为黑盒攻击在标准语音助手（如Google Now和Alexa）上均有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。