Skip to main content
QUICK REVIEW

[論文レビュー] Understanding and Mitigating the Security Risks of Voice-Controlled Third-Party Skills on Amazon Alexa and Google Home

Nan Zhang, Xianghang Mi|arXiv (Cornell University)|May 3, 2018
Spam and Phishing Detection参考文献 36被引用数 56
ひとこと要約

本論文は、AlexaとGoogle Homeのサードパーティスキルに対するリモートの音声ベース攻撃である Voice Squatting と Voice Masquerading の2件を特定し、それらの実現可能性を示し、音響的名のスキャナーと文脈依存検出器を含む防御機構を提案します。

ABSTRACT

Virtual personal assistants (VPA) (e.g., Amazon Alexa and Google Assistant) today mostly rely on the voice channel to communicate with their users, which however is known to be vulnerable, lacking proper authentication. The rapid growth of VPA skill markets opens a new attack avenue, potentially allowing a remote adversary to publish attack skills to attack a large number of VPA users through popular IoT devices such as Amazon Echo and Google Home. In this paper, we report a study that concludes such remote, large-scale attacks are indeed realistic. More specifically, we implemented two new attacks: voice squatting in which the adversary exploits the way a skill is invoked (e.g., "open capital one"), using a malicious skill with similarly pronounced name (e.g., "capital won") or paraphrased name (e.g., "capital one please") to hijack the voice command meant for a different skill, and voice masquerading in which a malicious skill impersonates the VPA service or a legitimate skill to steal the user's data or eavesdrop on her conversations. These attacks aim at the way VPAs work or the user's mis-conceptions about their functionalities, and are found to pose a realistic threat by our experiments (including user studies and real-world deployments) on Amazon Echo and Google Home. The significance of our findings have already been acknowledged by Amazon and Google, and further evidenced by the risky skills discovered on Alexa and Google markets by the new detection systems we built. We further developed techniques for automatic detection of these attacks, which already capture real-world skills likely to pose such threats.

研究の動機と目的

  • Amazon Alexa と Google Home における音声制御サードパーティスキルのセキュリティリスクを評価する。
  • rogue スキルを介したリモート・大規模攻撃の実現可能性を示す。
  • Squatting および Masquerading 攻撃を検出・防止する緩和技術を開発する。

提案手法

  • スキルの検証と音声コマンド解釈における弱点を特定するための呼び出し機構と技能呼び出しの分析。
  • ユーザー調査(Amazon Echo/Google Home ユーザー156名の調査)と現実世界での展開を行い、攻撃の実現可能性を評価する。
  • 市場における Voice Squatting および Word Squatting の攻撃展開を実施して脆弱性を検証する。
  • ARPABETを用いた音素ベースの Skill Name Scanner を実装し、スキャットリスクをスキル間で検出する。
  • SRC(Skill Response Checker)と UIC(User Intention Classifier)を用いた文脈感知型検出器を作成し、 masquerading 攻撃を緩和する。

実験結果

リサーチクエスチョン

  • RQ1 rogue サードパーティスキルをリモートで起動して正当なスキルや VPA サービスをなりすますことができるか。
  • RQ2Voice Squatting と Voice Masquerading は実世界の Alexa/Google Home 展開に対して実現可能か。
  • RQ3ユーザー体験を損なうことなく、これらの攻撃を効果的に検出・緩和できる防御策は何か。
  • RQ4スキル市場と呼び出し名全体で Squatting リスクはどれほど広がっているのか。

主な発見

  • Voice Squatting は、音素的に類似または言い換えられた名前を登録することによって呼び出しコマンドを乗っ取ることができる(例: Capital One と Capital Won)。
  • Voice Masquerading により悪意のあるスキルがシステムスキルや正規スキルを模倣してデータを盗むまたは盗聴することが可能になる。
  • 調査によると、ユーザーは自然な発話を用い、時には文脈を誤って切り替えることがあり、誤呼び出しのリスクを生み出す。自然な発話を用いたユーザーは約85%、意図せず他のスキルを開く人は約28%だった。
  • 現実世界の展開では4つの攻撃スキルをアップロード・テストでき、誤認識が発生した場合に悪意ある呼び出しが作動することを示した。
  • 音素ベースのスキャニングにより、19,670個の Amazon スキルのうち 4,718 個が squatting リスクを持つことを検出し、現実世界のリスクが大きいことを示した。
  • SRC および UIC 検出器は、音素分析と文脈認識的意図分類を用いた二層防護を提供し、 masquerading に対抗する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。