Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Over-the-Air Adversarial Examples Against Automatic Speech Recognition Systems.

Lea Schönherr, Steffen Zeiler|arXiv (Cornell University)|2019. 08. 05.
Adversarial Robustness in Machine Learning참고 문헌 16인용 수 5
한 줄 요약

이 논문은 실제 음향 환경에서 재생된 오디오에도 불구하고 자동 음성 인식(ASR) 시스템을 성공적으로 속이는 오버더에어 공격 예제를 생성하기 위한 일반적이고 강력한 방법을 제시한다. 방의 임펄스 응답을 시뮬레이션하고 청각적 마스킹 효과를 활용함으로써, 정확한 방의 지식이 없이도 다양한 실내 환경에서 고성능의 전이 가능성과 청취자에게 미치는 인지 불가능성을 유지한다.

ABSTRACT

Automatic speech recognition (ASR) systems are possible to fool via targeted adversarial examples. These can induce the ASR to produce arbitrary transcriptions in response to any type of audio signal, be it speech, environmental sounds, or music. However, in general, those adversarial examples did not work in a real-world setup, where the examples are played over the air but have to be fed into the ASR system directly. In some cases, where the adversarial examples could be successfully played over the air, the attacks require precise information about the room where the attack takes place in order to tailor the adversarial examples to a specific setup and are not transferable to other rooms. Other attacks, which are robust in an over-the-air attack, are either handcrafted examples or human listeners can easily recognize the target transcription, once they have been alerted to its content. In this paper, we demonstrate the first generic algorithm that produces adversarial examples which remain robust in an over-the-air attack such that the ASR system transcribes the target transcription after actually being replayed. For the proposed algorithm, guessing a rough approximation of the room characteristics is enough and no actual access to the room is required. We use the ASR system Kaldi to demonstrate the attack and employ a room-impulse-response simulator to harden the adversarial examples against varying room characteristics. Further, the algorithm can also utilize psychoacoustics to hide changes of the original audio signal below the human thresholds of hearing. We show that the adversarial examples work for varying room setups, but also can be tailored to specific room setups. As a result, an attacker can optimize adversarial examples for any target transcription and to arbitrary rooms. Additionally, the adversarial examples remain transferable to varying rooms with a high probability.

연구 동기 및 목표

  • 실제 오버더에어 조건에서 음향 왜곡으로 인해 실패하는 기존 ASR 시스템 공격의 격차를 보완하기 위해.
  • 타겟 방의 정확한 정보 없이도 다양한 실내 환경에서 효과를 유지하는 일반적인 공격 방법을 개발하기 위해.
  • 청각적 마스킹 효과를 활용하여 공격 예제가 인간 청취자에게 인지 불가능하도록 보장하기 위해.
  • 새로운, 알려지지 않은 실내 환경으로의 전이 가능성을 향상시키면서도 ASR 시스템을 속이는 데 높은 성공률 유지를 위해.

제안 방법

  • 이 방법은 오버더에어 재생 중 발생하는 실제 음향 왜곡에 대비해 공격 예제를 강화하기 위해 방의 임펄스 응답(RIR) 시뮬레이터를 사용한다.
  • 타겟 ASR 시스템(Kaldi)에서 특정 전사 결과를 유도하는 타겟 공격 예제를 생성하기 위해 미분 가능한 ASR 손실 함수를 활용한다.
  • 청각적 마스킹 효과를 이용해 오디오 신호의 변형을 인간 청각 임계치 이하로 숨기며, 인지 불가능성을 확보한다.
  • 반사 시간, 거리 등의 근사적인 실내 특성 정보를 입력으로 사용하여, 알려지지 않은 방 환경으로의 일반화를 가능하게 한다.
  • 반복 최적화를 통해 실제 오디오 전파에 의한 품질 저하 이후에도 효과를 유지할 수 있도록, RIR 시뮬레이션을 통한 최적화를 수행한다.
  • 이 방법은 일반화된 공격과 방별 최적화를 모두 지원하여, 특정 환경에 맞게 조정하거나 다양한 설정에 걸쳐 일반화된 공격 예제를 생성할 수 있다.

실험 결과

연구 질문

  • RQ1정확한 방 캘리브레이션 없이도 오버더에어 오디오 품질 열화에 강건한 공격 예제를 만들 수 있는가?
  • RQ2공격 예제를 인간 청취자에게 인지 불가능하게 하면서도 ASR 시스템에 효과적으로 작용할 수 있는 정도는 어느 정도인가?
  • RQ3생성된 공격 예제는 다양한 음향 환경 간에 얼마나 전이 가능한가?
  • RQ4다양한 임펄스 응답을 가진 여러 방에서 동일한 공격 예제가 효과를 발휘할 수 있는가?
  • RQ5청각적 마스킹 기법의 사용이 오버더에어 공격의 인지 불가능성과 성공률에 어떤 영향을 미치는가?

주요 결과

  • 제안된 방법은 방의 정확한 특성 정보 없이도 다양한 실내 환경에서 오버더에어 재생 시에도 높은 성공률를 유지하는 공격 예제를 생성한다.
  • 다양한 실내 환경 설정에서도 효과를 유지하며, 새로운 알려지지 않은 환경으로의 강력한 전이 가능성을 입증한다.
  • 청각적 마스킹을 통해 공격 변형이 인간 청취자에게 인지 불가능하게 숨겨졌으며, 내용이 알려진 후에도 여전히 인지 불가능하다.
  • 공격 예제 생성 과정에서 RIR 시뮬레이션을 통해 강건성을 확보함으로써 오버더에어 성공률가 크게 향상된다.
  • 특정 방에 맞게 최적화하거나 다양한 방으로 일반화할 수 있어, 더 넓은 적용 범위를 확보할 수 있다.
  • 실내 환경 특성의 추정치가 rough하더라도 공격가 효과를 유지하며, 환경 매개변수의 불확실성에 대비한 강건성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.