QUICK REVIEW

[論文レビュー] Inaudible Voice Commands

Liwei Song, Prateek Mittal|arXiv (Cornell University)|Aug 24, 2017

Adversarial Robustness in Machine Learning参考文献 4被引用数 37

ひとこと要約

本稿では、マイクの非線形性を活用して超音波を介して隠れた音声コマンドを注入することで、無音でIoTデバイス（Android端末やAmazon Echoなど）を制御する、画期的な聞き取り不可能な音声コマンド攻撃を提案する。この手法により、3メートルまでの距離でAndroidでは100%、Echoでは80%の成功率を達成した。超音波を精密に設計することで、マイクの出力に周波数混雑歪み（intermodulation distortion）を誘発し、音声コマンドを可聴帯域に変換している。

ABSTRACT

Voice assistants like Siri enable us to control IoT devices conveniently with voice commands, however, they also provide new attack opportunities for adversaries. Previous papers attack voice assistants with obfuscated voice commands by leveraging the gap between speech recognition system and human voice perception. The limitation is that these obfuscated commands are audible and thus conspicuous to device owners. In this paper, we propose a novel mechanism to directly attack the microphone used for sensing voice data with inaudible voice commands. We show that the adversary can exploit the microphone's non-linearity and play well-designed inaudible ultrasounds to cause the microphone to record normal voice commands, and thus control the victim device inconspicuously. We demonstrate via end-to-end real-world experiments that our inaudible voice commands can attack an Android phone and an Amazon Echo device with high success rates at a range of 2-3 meters.

研究の動機と目的

人間の検知ができない形で、音声アクティベートされたIoTデバイスを制御できる密かな攻撃手法の開発。
市販のマイクに内在する非線形性を活用し、聞き取り不可能な超音波を認識可能な音声コマンドに変換すること。
実用的でエンドツーエンドの超音波注入技術の設計。実際の距離（2〜3メートル）で動作し、デバイスの改造を必要としない。
Android端末やAmazon Echoを含む複数の消費者向けデバイスにおいて、実世界の条件下で高い成功率を示すこと。
ブラックボックス設定下で、スピーク認識モデルの知識がなくても実現可能であることを示すこと。

提案手法

マイクの非線形性によって生じる周波数混雑歪み（intermodulation distortion）を利用。入力された超音波信号が可聴帯域に新たな周波数成分を生成する。
30kHzのキャリア周波数を用いた振幅変調により、音声信号スペクトルを超音帯域にシフトさせ、聞き取り不可能に保つ。
変調の前に、通常の音声コマンド信号を192kHzにアップサンプリングし、周波数分解能を保持する。
最終的な攻撃信号は、変調された音声信号とキャリア波を加算することで構築され、マイクの非線形応答によって復調可能となる。
パワーアンプとトゥイーター・スピーカーを用いて、2〜3メートルの距離で信頼性高く検出可能な強度の超音波信号を送信する。
マイクのローパスフィルターやADCが、結果として生じる可聴成分を捉え、音声アシスタントが有効な音声コマンドとして解釈できるようにする。

実験結果

リサーチクエスチョン

RQ1標準マイクの出力で、非線形歪みの影響を受けて、聞き取り可能な音声コマンドが生成されるような聞き取り不可能な超音波信号を設計可能か？
RQ2市販のオーディオ機器を用いて、実用的な距離（2〜3メートル）でこのような聞き取り不可能なコマンドを送信できるか、その範囲はどの程度か？
RQ3実世界のデバイス（Android端末やAmazon Echo）に対して、実世界の条件下で攻撃はどの程度効果的か？
RQ4異なるマイクタイプにおいて、入力電力と攻撃距離の関係はいかなるものか？
RQ5ターゲットデバイスの改造や、音声認識モデルの知識がなくても攻撃が可能か？

主な発見

18.7Wの入力電力で、3メートルの距離でAndroid端末での攻撃成功率が100%に達した。
同じ条件下で、2メートルの距離でAmazon Echo端末での攻撃成功率が80%に達した。
入力電力が増加するにつれて攻撃距離が延長された：Android端末では23.7Wで354cm、Echoでは同じ電力で239cmに達した。
スペクトログラム解析により、超音波信号が聞き取り不可能（20kHz以上）である一方で、マイク出力には元の音声コマンドと密接に一致するスペクトル形状が確認された。
標準のラップトップ、オーディオアンプ、トゥイーター・スピーカーを用いた実環境での実証により、市販部品での実現可能性が確認された。
デバイス固有のキャリブレーションや改造を必要とせず、Google Now や Alexa といった標準音声アシスタントに対してもブラックボックス攻撃として機能することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。