QUICK REVIEW

[논문 리뷰] VoiceMask: Anonymize and Sanitize Voice Input on Mobile Devices

Jianwei Qian, Haohua Du|arXiv (Cornell University)|2017. 11. 30.

Speech Recognition and Synthesis참고 문헌 23인용 수 25

한 줄 요약

VoiceMask는 모바일 디바이스에서 사용자 음성 입력을 음성 변환과 진화 기반 키워드 교체를 통해 강력하게 음성 변환하고, 클라우드 기반 음성 인식 서비스에 데이터를 전송하기 전에 음성 정보를 익명화하는 경량의 온디바이스 음성 정제 시스템이다. 음성 식별 확률을 84% 감소시키면서도 음성 인식 정확도는 14.2% 이내로 유지하여 사용자 신원과 콘텐츠 프라이버시를 효과적으로 보호한다.

ABSTRACT

Voice input has been tremendously improving the user experience of mobile devices by freeing our hands from typing on the small screen. Speech recognition is the key technology that powers voice input, and it is usually outsourced to the cloud for the best performance. However, the cloud might compromise users' privacy by identifying their identities by voice, learning their sensitive input content via speech recognition, and then profiling the mobile users based on the content. In this paper, we design an intermediate between users and the cloud, named VoiceMask, to sanitize users' voice data before sending it to the cloud for speech recognition. We analyze the potential privacy risks and aim to protect users' identities and sensitive input content from being disclosed to the cloud. VoiceMask adopts a carefully designed voice conversion mechanism that is resistant to several attacks. Meanwhile, it utilizes an evolution-based keyword substitution technique to sanitize the voice input content. The two sanitization phases are all performed in the resource-limited mobile device while still maintaining the usability and accuracy of the cloud-supported speech recognition service. We implement the voice sanitizer on Android systems and present extensive experimental results that validate the effectiveness and efficiency of our app. It is demonstrated that we are able to reduce the chance of a user's voice being identified from 50 people by 84% while keeping the drop of speech recognition accuracy within 14.2%.

연구 동기 및 목표

클라우드 기반 음성 입력 시스템에서 음성 생체정보가 사용자 재식별에 악용되는 개인정보 위험을 해결하기 위해.
NLP 기법을 사용해 클라우드 서비스가 음성 입력의 민감한 콘텐츠를 프로파일링하는 것을 방지하기 위해.
클라우드가 원본 음성 데이터에 접근하지 못하도록 하여 음성 스푸핑 및 위조 공격을 방지하기 위해.
데이터 정제에도 불구하고 클라우드 기반 음성 인식의 사용성과 정확도를 유지하기 위해.
자원 제약이 있는 모바일 플랫폼에서 효율적으로 작동하는 실용적인 온디바이스 솔루션을 제공하기 위해.

제안 방법

말하기 특성은 유지하면서도 음성 내용과 이해도를 보존하는 정교하게 설계된 음성 변환 메커니즘을 활용한다.
민감한 키워드를 의미적으로 유사하지만 익명화된 대체어로 교체하는 진화 기반 키워드 교체 기법을 사용한다.
모든 정제 단계—음성 익명화와 콘텐츠 정제—를 완전히 모바일 기기에서 수행하여 원본 데이터가 클라우드에暴露되지 않도록 한다.
클라우드 서비스의 변경 없이 기존 클라우드 음성 인식 파이프라인과 통합된다.
차별적 프라이버시를 확보하기 위해 블룸 필터 기반의 가로막기 기법(PRAKA)을 활용한다.
모바일 기기에서 저연산 오버헤드를 보장하는 안전하고 가벼운 아키텍처를 채택한다.

실험 결과

연구 질문

RQ1모바일 기기에서 음성 식별을 통해 사용자 재식별을 방지하기 위해 음성 입력을 정제할 수 있는가?
RQ2음성 인식 정확도를 떨어뜨리지 않으면서도 음성 입력의 민감한 콘텐츠를 어느 정도 보호할 수 있는가?
RQ3음성 변환과 키워드 교체를 조합한 하이브리드 접근 방식이 프라이버시와 사용성 유지에 얼마나 효과적인가?
RQ4강력한 프라이버시 보장을 받는 조건에서도 시스템이 수용 가능한 음성 인식 성능을 유지할 수 있는가?
RQ5실제 모바일 환경에서의 구현 시 프라이버시 보호와 인식 정확도 사이의 상충 관계는 어떠한가?

주요 결과

VoiceMask는 음성 변환을 통해 50명의 그룹에서 사용자 음성을 식별할 확률을 84% 감소시킨다.
시스템은 원본 입력 대비 음성 인식 정확도를 14.2% 이내로 유지하여 사용성을 보장한다.
진화 기반 키워드 교체 기법은 의미적 의미와 맥락을 유지하면서도 민감한 용어를 효과적으로 대체한다.
전체 정제 파이프라인이 기기 내에서 실행되어 원본 음성 데이터가 클라우드에 노출되지 않는다.
시스템은 안드로이드 모바일 기기에서 실용적이고 효율적인 실세계 구현이 가능하다.
음성 변환과 콘텐츠 정제의 조합은 신원 및 콘텐츠 프라이버시 유출에 대해 강력한 저항력을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.