[논문 리뷰] Did you hear that? Adversarial Examples Against Automatic Speech Recognition
본 논문은 음성 명령 인식 모델에 대해 대상 타깃의 적대적 오디오를 생성하기 위해 블랙박스, 그래디언트 프리 진화 알고리즘을 시연하여 87%의 성공률을 달성하고, 매우 작고 종종 지각되지 않는 소음을 추가한다. 인간 청취자는 왜곡을 대체로 구분하지 못한다.
Speech is a common and effective way of communication between humans, and modern consumer devices such as smartphones and home hubs are equipped with deep learning based accurate automatic speech recognition to enable natural interaction between humans and machines. Recently, researchers have demonstrated powerful attacks against machine learning models that can fool them to produceincorrect results. However, nearly all previous research in adversarial attacks has focused on image recognition and object detection models. In this short paper, we present a first of its kind demonstration of adversarial attacks against speech classification model. Our algorithm performs targeted attacks with 87% success by adding small background noise without having to know the underlying model parameter and architecture. Our attack only changes the least significant bits of a subset of audio clip samples, and the noise does not change 89% the human listener's perception of the audio clip as evaluated in our human study.
연구 동기 및 목표
- 이미지 모델을 넘어 ASR 시스템의 적대적 취약점을 동기 부여하고 시연한다.
- 블랙박스, 그래디언트 프리 공격이 음성 인식에서 특정 출력을 목표로 삼을 수 있음을 보인다.
- 사용자 연구를 통해 적대적 소음이 인간 청자에게 미치는 지각적 영향을 정량화한다.
- 적대적 오디오를 생성하기 위한 재현 가능한 방법론과 공개 구현을 제공한다.
제안 방법
- 모델의 그래디언트나 아키텍처 세부 정보를 필요로 하지 않고 대상적 적대 오디오를 생성하기 위해 유전 알고리즘을 사용한다.
- 지각적 영향을 최소화하기 위해 오디오 샘플의 하위 비트를 일부만 교란한다.
- 피트니스는 블랙박스 모델 하에서 타깃 레이블의 가능성을 평가하고 선택, 교배, 변이를 안내한다.
- Titan X GPU에서 37초의 중앙 생성 시간과 함께 500 반복으로 공격을 제한한다.
- Speech Commands 모델과 데이터셋에서 500개의 소스 클립과 각 클립당 9개의 타깃 레이블(총 4500개의 적대적 예제)을 평가한다.
실험 결과
연구 질문
- RQ1블랙박스, 그래디언트 프리 공격이 ASR을 선택된 타깃 레이블로 크게 오도시킬 수 있는가?
- RQ2실용적인 ASR 모델에 대한 대상적 적대 오디오의 성공률은 어느 정도인가?
- RQ3왜곡이 인간 청자에게 얼마나 지각 가능한지, 그리고 인간이 원래의 레이블 인식을 유지하는가?
- RQ4공개적으로 사용 가능한 코드와 매개변수로 이 접근법을 재현할 수 있는가?
- RQ5ASR에서 비대상 공격은 대상 공격과 비교하여 실행 가능성과 영향면에서 어떻게 비교되는가?
주요 결과
| 소스로 라벨링된 공격 | 타깃으로 라벨링된 공격 | 다른 것으로 라벨링된 공격 | 퍼센트 |
|---|---|---|---|
| 89% | 0.6% | 9.4% |
- 소스-타깃 페어 전반에서 대상 공격이 87%의 성공률을 보였다.
- 노이즈는 16비트 오디오 파일의 샘플 중 일부의 8개 최하위 비트에만 추가된다.
- 인간 연구(참여자 23명, 클립 1500개)에서 노이즈가 원 소스 레이블에서 인간 라벨을 바꾸지 않은 경우가 89%였다.
- 적대적 예시 생성의 중앙값 시간은 Titan X GPU에서 37초이다.
- MFCC 그래디언트가 필요하지 않으며, 모델 내부를 피하는 블랙박스 설정에서 공격이 시연된다.
- 해당 논의에서는 비타깃 공격에서 100% 성공을 달성한다고 말한다(주요 결과에는 없음).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.