Skip to main content
QUICK REVIEW

[論文レビュー] Robust Over-the-Air Adversarial Examples Against Automatic Speech Recognition Systems.

Lea Schönherr, Steffen Zeiler|arXiv (Cornell University)|Aug 5, 2019
Adversarial Robustness in Machine Learning参考文献 16被引用数 5
ひとこと要約

本論文では、実際の音響環境を経て再生された音声に対しても、自動音声認識(ASR)システムを効果的にだますことができる汎用的で頑健な方法を提示する。部屋のインパulse応答(RIR)をシミュレートし、心理音響的マスキングを活用することで、正確な部屋の情報を必要とせずに多様な部屋で動作する。高い転送性と人間の聴取者にとっての不可検知性を維持する。

ABSTRACT

Automatic speech recognition (ASR) systems are possible to fool via targeted adversarial examples. These can induce the ASR to produce arbitrary transcriptions in response to any type of audio signal, be it speech, environmental sounds, or music. However, in general, those adversarial examples did not work in a real-world setup, where the examples are played over the air but have to be fed into the ASR system directly. In some cases, where the adversarial examples could be successfully played over the air, the attacks require precise information about the room where the attack takes place in order to tailor the adversarial examples to a specific setup and are not transferable to other rooms. Other attacks, which are robust in an over-the-air attack, are either handcrafted examples or human listeners can easily recognize the target transcription, once they have been alerted to its content. In this paper, we demonstrate the first generic algorithm that produces adversarial examples which remain robust in an over-the-air attack such that the ASR system transcribes the target transcription after actually being replayed. For the proposed algorithm, guessing a rough approximation of the room characteristics is enough and no actual access to the room is required. We use the ASR system Kaldi to demonstrate the attack and employ a room-impulse-response simulator to harden the adversarial examples against varying room characteristics. Further, the algorithm can also utilize psychoacoustics to hide changes of the original audio signal below the human thresholds of hearing. We show that the adversarial examples work for varying room setups, but also can be tailored to specific room setups. As a result, an attacker can optimize adversarial examples for any target transcription and to arbitrary rooms. Additionally, the adversarial examples remain transferable to varying rooms with a high probability.

研究の動機と目的

  • 音声認識(ASR)システムに対する既存の敵対的攻撃が、音響的歪みによって実世界の空中伝播条件下で失敗するというギャップを解消すること。
  • 攻撃対象の部屋の正確な情報が得られない状況下でも、多様な部屋環境で効果を発揮する汎用的攻撃手法を開発すること。
  • 心理音響的マスキング効果を活用することで、敵対的摂動を人間の聴取感度以下に隠し、聴取者にとって不可検知にすること。
  • 未知の部屋に対しても高い成功率でASRシステムをだますことができる、敵対的例の転送性を向上させること。

提案手法

  • 本手法は、空中伝播中に生じる現実的な音響歪みに対して敵対的例を強化するため、部屋のインパulse応答(RIR)シミュレータを用いる。
  • ターゲットASRシステム(Kaldi)に特定の文字起こしを誘発させるように、ターゲット化された敵対的例を生成するために微分可能なASR損失関数を採用する。
  • 摂動を人間の聴取閾値以下に隠すために、心理音響モデルを活用し、不可検知性を確保する。
  • 混ぜ込み時間や距離などの部屋の特徴の粗い近似値を入力とすることで、未知の部屋に一般化可能な攻撃を実現する。
  • 反復的最適化を用い、RIRシミュレーションを介して空中伝播による劣化に対しても効果を保つように、敵対的例を最適化する。
  • 本手法は、特定の部屋向けの最適化と一般化された最適化の両方をサポートしており、攻撃者が環境に応じて例を調整可能である。

実験結果

リサーチクエスチョン

  • RQ1正確な部屋のキャリブレーションを必要とせずに、空中伝播による音声劣化に対して頑健な敵対的例を生成できるか?
  • RQ2人間の聴取者にとっての不可検知性を保ちつつ、ASRシステムに対して効果的な敵対的例をどの程度まで実現できるか?
  • RQ3生成された敵対的例は、異なる音響環境間でどの程度転送可能か?
  • RQ41つの敵対的例が、インパulse応答が異なる複数の部屋で効果を発揮できるか?
  • RQ5心理音響的マスキングの使用が、空中伝播攻撃の不可検知性と成功率にどのように影響するか?

主な発見

  • 提案手法により、部屋の正確な特性が不明な状況下でも、多様な部屋で空中再生された場合に高い成功率を維持する敵対的例が生成された。
  • 複数の部屋設定においても攻撃が有効であり、未確認の環境への強い転送性を示した。
  • 心理音響的マスキングにより、敵対的摂動が人間の聴取者に検知されないよう効果的に隠蔽された。
  • 敵対的例生成プロセス中にRIRをシミュレートすることで、本手法は空中伝播における成功率を著しく向上させた。
  • 特定の部屋向けに最適化することで高い有効性を発揮できる一方で、複数の環境に一般化可能であり、広範な応用が可能である。
  • 部屋の特性が粗く推定されている状況下でも攻撃が有効であるため、環境パrameterの不確実性に対しても耐性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。