QUICK REVIEW

[論文レビュー] Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness

Siddique Latif, Rajib Rana|arXiv (Cornell University)|Nov 28, 2018

Adversarial Robustness in Machine Learning参考文献 28被引用数 41

ひとこと要約

本論文は音声感情認識（SER）に対するブラックボックス対向攻撃を研究し、分類前に敵対的ノイズを除去してロバスト性を向上させるGANベースの防御を提案する。

ABSTRACT

Deep learning has undoubtedly offered tremendous improvements in the performance of state-of-the-art speech emotion recognition (SER) systems. However, recent research on adversarial examples poses enormous challenges on the robustness of SER systems by showing the susceptibility of deep neural networks to adversarial examples as they rely only on small and imperceptible perturbations. In this study, we evaluate how adversarial examples can be used to attack SER systems and propose the first black-box adversarial attack on SER systems. We also explore potential defenses including adversarial training and generative adversarial network (GAN) to enhance robustness. Experimental evaluations suggest various interesting aspects of the effective utilization of adversarial examples useful for achieving robustness for SER systems opening up opportunities for researchers to further innovate in this space.

研究の動機と目的

ブラックボックス環境でSERシステムが敵対的な音声摂動にどれだけ影響を受けやすいかを調査する。
不可聴な実世界ノイズを用いたSERに対する効果的な敵対的攻撃を実証する。
頑健性のための防御戦略として、敵対的トレーニング、ランダムノイズ、GANベースのノイズ除去を評価する。
SER分類前のGANベース清掃が従来の防御よりも強いロバスト性をもたらすことを示す。）
method:[

提案手法

SER入力に、実世界の背景ノイズ（カフェ、会議、駅）から抽出された不可聴なノイズを加えることで敵対的な音声例を生成する。
eGeMAPS特徴量とLSTMベースの分類器を用いてSERタスクをモデル化し、IEMOCAPとFAU‑AIBOで話者非依存の設定を評価する。
敵対的サンプルの人間知覚性とSERに対する攻撃成功率を評価する。
防御を比較する：敵対的トレーニング、ランダムノイズでのトレーニング、分類前に敵対摂動をクリーンにするGANベースのデノイジングフレームワーク。
G（自動エンコーダ風のLSTM）とD（エンコーダ-デコーダ）を備えたGANを実装し、混合データセットで訓練して敵対的ノイズを除去する。

実験結果

リサーチクエスチョン

RQ1モデルパラメータにアクセスできない状態で、ブラックボックス対向攻撃はSERシステムを欺くことができるか？
RQ2実世界の背景ノイズはSERに対して効果的な不可聴な敵対摂動として機能し得るか？
RQ3敵対的な摂動下で最も効果的にSERの性能を回復させる防御メカニズムはどれか？
RQ4SERの頑健性において、GANベースのデノイジングは敵対的トレーニングやランダムノイズ拡張より優れているか？

主な発見

ブラックボックス条件下で、敵対的摂動はIEMOCAPとFAU‑AIBOのSER誤差を著しく上昇させる。
敵対的トレーニングは誤差を減らすが、GANベースのデノイジングより効果が劣る。
ランダムノイズでの訓練は敵対的音声攻撃に対する頑健性の改善を限定的に提供する。
摂動を含む発話をクリーンにした後の分類誤差を著しく低減するGANベースの防御は、敵対的トレーニングおよびランダムノイズアプローチを上回る。
GANベースの防御は、両データセットおよび複数のノイズタイプにわたり一貫した頑健性の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。