QUICK REVIEW

[논문 리뷰] Inaudible Voice Commands

Liwei Song, Prateek Mittal|arXiv (Cornell University)|2017. 08. 24.

Adversarial Robustness in Machine Learning참고 문헌 4인용 수 37

한 줄 요약

이 논문은 마이크의 비선형성에 기반해 초음파를 이용해 음성 명령을 은폐하여 삽입함으로써, Android 폰과 아마존 에코와 같은 IoT 기기들을 침묵 상태에서 제어할 수 있는 새로운 청취 불가능한 음성 명령 공격을 제안한다. 이 방법은 3미터 이내 거리에서 Android 기기에서는 100% 성공률, 에코 기기에서는 80% 성공률를 기록한다. 특히 정교하게 설계된 초음파를 통해 마이크의 비선형성에 의해 상호조합 왜곡(intermodulation distortion)을 유도함으로써 마이크 출력에서 청취 가능한 명령어를 생성한다.

ABSTRACT

Voice assistants like Siri enable us to control IoT devices conveniently with voice commands, however, they also provide new attack opportunities for adversaries. Previous papers attack voice assistants with obfuscated voice commands by leveraging the gap between speech recognition system and human voice perception. The limitation is that these obfuscated commands are audible and thus conspicuous to device owners. In this paper, we propose a novel mechanism to directly attack the microphone used for sensing voice data with inaudible voice commands. We show that the adversary can exploit the microphone's non-linearity and play well-designed inaudible ultrasounds to cause the microphone to record normal voice commands, and thus control the victim device inconspicuously. We demonstrate via end-to-end real-world experiments that our inaudible voice commands can attack an Android phone and an Amazon Echo device with high success rates at a range of 2-3 meters.

연구 동기 및 목표

인간의 감지 없이도 음성 활성화 IoT 기기를 제어할 수 있는 은폐된 공격 방법을 개발하는 것.
일반 소매 마이크 내재된 비선형성을 악용해 청취 불가능한 초음파를 인식 가능한 음성 명령어로 변환하는 것.
실제 거리(2–3미터)에서 작동하며 기기 수정 없이 실용적인 종단 간 초음파 주입 기법을 설계하는 것.
안드로이드 폰과 아마존 에코를 포함한 여러 소비자 기기에서 실제 환경 조건에서 높은 성공률를 보여주는 것.
공격이 상용 하드웨어로 실행 가능하며, 음성 인식 모델의 지식이 필요 없이(black-box 설정)도 가능한지 확인하는 것.

제안 방법

마이크 비선형성에 의해 유도되는 상호조합 왜곡(intermodulation distortion)을 활용하며, 입력 초음파 신호가 청취 가능한 대역에 새로운 주파수 성분을 생성한다.
30kHz의 캐리어 주파수를 사용한 진폭 변조를 통해 음성 신호 스펙트럼을 초음파 대역으로 이동시켜 청취 불가능하게 한다.
변조 이전에 정상 음성 명령 신호를 192kHz로 업샘플링하여 스펙트럼 해상도를 유지한다.
변조된 음성 신호와 캐리어 파동을 합쳐 최종 공격 신호를 구성함으로써, 마이크의 비선형 응답에 의해 복조가 가능하게 한다.
파wer 앰프와 트위터 스피커를 사용해 2–3미터 거리에서 신뢰성 있게 감지될 수 있는 강도로 초음파 신호를 전송한다.
마이크의 저통과 필터와 ADC가 결과적으로 생성된 청취 가능한 성분을 캡처하며, 이는 음성 보조 기기에서 유효한 음성 명령어로 해석된다.

실험 결과

연구 질문

RQ1일반 마이크 출력에서 비선형 왜곡로 인해 청취 불가능한 초음파 신호가 인식 가능한 음성 명령어로 생성될 수 있는가?
RQ2일반 오디오 장비를 사용해 실용적인 거리(2–3미터)에서 이러한 청취 불가능 명령어를 얼마나 효과적으로 전송할 수 있는가?
RQ3실제 환경 조건에서 안드로이드 폰과 아마존 에코 같은 실제 기기에서 공격의 효과는 어떠한가?
RQ4다양한 마이크 유형에 대해 입력 전력과 공격 거리 간의 관계는 어떠한가?
RQ5대상 기기의 수정 없이 또는 음성 인식 모델의 지식 없이도 공격를 수행할 수 있는가?

주요 결과

18.7W 입력 전력으로 3미터 거리에서 안드로이드 폰에서 공격 성공률가 100%를 기록했다.
동일한 조건에서 2미터 거리에서 아마존 에코 기기에서 공격 성공률가 80%를 기록했다.
입력 전력 증가에 따라 공격 거리가 증가했다: 안드로이드 폰은 23.7W에서 354cm에 도달했고, 에코 기기는 동일한 전력에서 239cm에 도달했다.
스펙트로그램 분석 결과 초음파 신호는 청취 불가능한 범위(>20kHz)였지만, 마이크 출력에는 원래 음성 명령어와 밀도적으로 유사한 스펙트럼 형태가 존재했다.
표준 랩탑, 오디오 앰프, 트위터 스피커를 사용해 실제 환경에서 공격를 성공적으로 시연함으로써, 상용 구성 요소로도 실행 가능함을 확인했다.
공격는 기기별 캘리브레이션 또는 수정이 필요 없으며, 구글 노우와 알렉사와 같은 표준 음성 보조 기기에서 블랙박스 공격로도 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.