[論文レビュー] Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition
論文は聴覚マスキングを用いてASR向けの知覚できない、標的型敵対的音声を構築し、部屋のシミュレーションによるover-the-air歪みに対する頑健性を示す。
Adversarial examples are inputs to machine learning models designed by an adversary to cause an incorrect output. So far, adversarial examples have been studied most extensively in the image domain. In this domain, adversarial examples can be constructed by imperceptibly modifying images to cause misclassification, and are practical in the physical world. In contrast, current targeted adversarial examples applied to speech recognition systems have neither of these properties: humans can easily identify the adversarial perturbations, and they are not effective when played over-the-air. This paper makes advances on both of these fronts. First, we develop effectively imperceptible audio adversarial examples (verified through a human study) by leveraging the psychoacoustic principle of auditory masking, while retaining 100% targeted success rate on arbitrary full-sentence targets. Next, we make progress towards physical-world over-the-air audio adversarial examples by constructing perturbations which remain effective even after applying realistic simulated environmental distortions.
研究の動機と目的
- 人間には知覚不能でありつつ、ASRシステムの全文 targets で100%の標的成功を達成できる敵対的例を示す。
- 室内残響をシミュレートして部屋構成を最適化することで、空中伝送歪みに対する頑健性を開発する。
- LibriSpeechデータを用いて、最先端のLingvo ASRシステムで知覚不能性と頑健性を評価する。
- ホワイトボック脅威モデルの下で、セキュアで頑健なASR敵対者の理解を深める。
提案手法
- 従来のLp距離を心理音響マスキングに置換し、マスキング閾値下で摂動を聴覚的に聞こえないようにする。
- 2段階最適化: まず小さな摂動下でASR損失を最小化し、続いてマスキング閾値損失(ell_theta)により知覚不能性を強制する。
- 音響部屋シミュレータ(image-source法)を用いて残響をモデル化し、部屋構成の分布上で摂動を最適化する(変換に対する期待)。
- 知覚不能で頑健な敵対的例を作成するため、2段階または複合目的関数を用いて、シミュレートされた空中伝送歪みに対しても効果を維持する。
- Lingvo(Listen, Attend, and Spell ベース)のASRを、摂動をマスキング閾値内に保ちながら標的転写 y を攻撃する。
- 頑健性が必要な時は、頑健な摂動から初期化し、知覚不能性損失で微調整して頑健性と知覚性のバランスを取る。
実験結果
リサーチクエスチョン
- RQ1人間の聴取者に対して、聴覚マスキングを用いてASRの標的型敵対例を知覚不能にできるか。
- RQ2音声が現実的な部屋環境で音響モデルによりシミュレートされて再生された場合、敵対的摂動は効果を維持するか。
- RQ3ホワイトボックスアクセスの下で、Lingvoのような現代のエンドツーエンドASR向けに全文の標的敵対出力を生成することは現実的か。
- RQ4ASR敵対例における知覚不能性と空中伝送歪みに対する頑健性のトレードオフは何か。
主な発見
- 知覚不能で標的型の敵対的例は、Lingvoを用いてオーバーザ-airシミュレーションなしで1000個のLibriSpeechサンプルに対して100%の標的成功を達成。
- 室配置の分布に最適化することで空中伝送の頑健性を向上できる;好適なWER改善を伴うシミュレートされた部屋で頑健な例は60%超の成功を達成。
- 人間の研究では、敵対的音声はクリーン音声より騒音として認識されず、知覚不能な敵対的音声をクリーンと区別するのが難しい。
- 知覚不能性と頑健性を組み合わせると、さまざまな部屋の音響で効果を維持できる攻撃者が得られるが、頑健性を高めると知覚性が増すトレードオフがある。
- このアプローチは最先端のLingvo ASRシステムを対象とし、知覚不能で頑健で標的を絞った攻撃がホワイトボックス脅威モデル下で実現可能であることを示す。
- 頑健な例は最大ノルム制限を増やすと成功率とWERが改善される一方、知覚性のコストを伴う。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。