QUICK REVIEW

[논문 리뷰] Adversarial Machine Learning And Speech Emotion Recognition: Utilizing Generative Adversarial Networks For Robustness

Siddique Latif, Rajib Rana|arXiv (Cornell University)|2018. 11. 28.

Adversarial Robustness in Machine Learning참고 문헌 28인용 수 41

한 줄 요약

이 논문은 음성 감정 인식(SER)에 대한 black-box 적대적 공격을 연구하고, 분류 전에 적대적 노이즈를 정리하여 강인성을 향상시키는 GAN 기반 방어를 제안한다.

ABSTRACT

Deep learning has undoubtedly offered tremendous improvements in the performance of state-of-the-art speech emotion recognition (SER) systems. However, recent research on adversarial examples poses enormous challenges on the robustness of SER systems by showing the susceptibility of deep neural networks to adversarial examples as they rely only on small and imperceptible perturbations. In this study, we evaluate how adversarial examples can be used to attack SER systems and propose the first black-box adversarial attack on SER systems. We also explore potential defenses including adversarial training and generative adversarial network (GAN) to enhance robustness. Experimental evaluations suggest various interesting aspects of the effective utilization of adversarial examples useful for achieving robustness for SER systems opening up opportunities for researchers to further innovate in this space.

연구 동기 및 목표

블랙박스 설정에서 SER 시스템이 적대적 오디오 왜곡에 얼마나 취약한지 조사한다.
인지하기 어려운 실제 노이즈를 사용하는 SER에 대한 효과적인 적대적 공격을 시연한다.
강인성을 위한 적대적 학습, 무작위 잡음, GAN 기반 잡음 제거를 포함한 방어 전략을 평가한다.
SER 분류 전에 GAN 기반 정제가 이전 방어보다 더 강한 강인성을 제공함을 보인다.

제안 방법

실제 배경 소음(café, meeting, station)에서 추출한 인지하기 어려운 잡음을 SER 입력에 추가하여 적대적 오디오 예제를 생성한다.
eGeMAPS 특징과 LSTM 기반 분류기로 SER 작업을 모델링하고; IEMOCAP 및 FAU‑AIBO에서 화자 독립 설정을 평가한다.
적대적 샘플의 인간 지각 가능성 및 SER에 대한 공격 성공률을 평가한다.
방어 방법을 비교한다: 적대적 학습, 무작위 잡음으로의 학습, 분류 전에 적대적 섭동을 정제하는 GAN 기반 노이즈 제거 프레임워크.
GAN을 G (오토인코더 형 LSTM) 및 D (인코더-디코더)로 구현하여 적대적 노이즈를 제거하고 혼합 데이터를 사용해 학습한다.

실험 결과

연구 질문

RQ1모델 매개변수에 접근하지 않고도 블랙박스 적대적 공격이 SER 시스템을 속일 수 있는가?
RQ2실제 배경 소음이 SER에 대해 효과적이고 지각되지 않는 적대적 섭동으로 작용할 수 있는가?
RQ3어떤 방어 메커니즘이 적대적 섭동 하에서 SER 성능을 가장 효과적으로 복원하는가?
RQ4GAN 기반 노이즈 제거가 SER 강인성에 있어 적대적 학습이나 무작위 잡음 증강보다 우수한가?

주요 결과

블랙박스 조건에서 적대적 섭동이 IEMOCAP 및 FAU‑AIBO에서 SER 오차율을 크게 증가시킨다.
적대적 학습은 오차를 감소시키지만 GAN 기반 노이즈 제거보다 효과가 작다.
무작위 잡음으로의 학습은 적대적 오디오 공격에 대해 제한된 강인성 향상을 제공한다.
GAN 기반 방어는 섭동된 발화를 정제한 후의 분류 오차를 크게 줄이며, 적대적 학습 및 무작위 잡음 방식보다 우수하다.
GAN 기반 방어는 두 데이터셋과 여러 유형의 잡음에서 일관된 강인성 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.