QUICK REVIEW

[論文レビュー] VoiceMask: Anonymize and Sanitize Voice Input on Mobile Devices

Jianwei Qian, Haohua Du|arXiv (Cornell University)|Nov 30, 2017

Speech Recognition and Synthesis参考文献 23被引用数 25

ひとこと要約

VoiceMask は、モバイルデバイス上でローカルに実行される軽量で、オンデバイス型のボイスセキュリティシステムであり、クラウドベースの音声認識サービスに送信する前に、耐障害性の高い音声変換と進化ベースのキーワード置換を適用することで、ユーザーのボイス入力を匿名化する。音声識別確率を 84% 減少させつつ、音声認識の精度を 14.2% 以内に抑えることで、ユーザーのアイデンティティとコンテンツプライバシーを効果的に保護する。

ABSTRACT

Voice input has been tremendously improving the user experience of mobile devices by freeing our hands from typing on the small screen. Speech recognition is the key technology that powers voice input, and it is usually outsourced to the cloud for the best performance. However, the cloud might compromise users' privacy by identifying their identities by voice, learning their sensitive input content via speech recognition, and then profiling the mobile users based on the content. In this paper, we design an intermediate between users and the cloud, named VoiceMask, to sanitize users' voice data before sending it to the cloud for speech recognition. We analyze the potential privacy risks and aim to protect users' identities and sensitive input content from being disclosed to the cloud. VoiceMask adopts a carefully designed voice conversion mechanism that is resistant to several attacks. Meanwhile, it utilizes an evolution-based keyword substitution technique to sanitize the voice input content. The two sanitization phases are all performed in the resource-limited mobile device while still maintaining the usability and accuracy of the cloud-supported speech recognition service. We implement the voice sanitizer on Android systems and present extensive experimental results that validate the effectiveness and efficiency of our app. It is demonstrated that we are able to reduce the chance of a user's voice being identified from 50 people by 84% while keeping the drop of speech recognition accuracy within 14.2%.

研究の動機と目的

クラウドベースのボイス入力システムにおけるプライバシーリスクに対処し、音声バイオメトリクスがユーザーの再識別に使われるのを防ぐ。
自然言語処理（NLP）技術を用いてクラウドサービスがボイス入力の内容をプロファイリングするのを防ぐ。
クラウドが生のボイスデータにアクセスできないようにすることで、ボイススプーフィングやなりすまし攻撃を防ぐ。
データのセキュリティ化にもかかわらず、クラウドベースの音声認識の使いやすさと精度を維持する。
リソース制限のあるモバイルプラットフォームでも効率的に動作する実用的でオンデバイス型のソリューションを提供する。

提案手法

話者の特徴を変更しながらも、発話内容と理解可能性を保つように設計された、きめ細やかな音声変換メカニズムを採用する。
進化ベースのキーワード置換技術を用いて、ボイス入力内の機微なキーワードを意味的に類似したが匿名化された代替語に置き換える。
両方のセキュリティ処理フェーズ（音声匿名化とコンテンツ匿名化）をすべてモバイルデバイス上で実行し、生のデータがクラウドに晒されるのを回避する。
クラウドサービスの変更なしに、既存のクラウド音声認識パイプラインと統合可能である。
微分プライバシーを確保するため、ブーブルフィルターベースの難読化技術（PRAKA）を活用する。
計算負荷を低く抑えられる、安全で軽量なアーキテクチャを採用する。

実験結果

リサーチクエスチョン

RQ1モバイルデバイス上でボイス入力をセキュリティ化することで、話者識別によるユーザーの再識別を防げるか？
RQ2音声認識精度の低下を抑えながら、ボイス入力内の機微なコンテンツをどの程度保護できるか？
RQ3音声変換とキーワード置換を組み合わせたハイブリッドアプローチが、プライバシー保護と使いやすさをどの程度維持できるか？
RQ4強力なプライバシー保証のもとでも、システムが妥当な音声認識パフォーマンスを維持できるか？
RQ5実際のモバイル環境での展開において、プライバシー保護と認識精度のトレードオフはどのようなものか？

主な発見

VoiceMask は音声変換により、50人中1人のユーザーの音声を識別する確率を 84% 減少させる。
システムは、元の入力と比較して音声認識精度が 14.2% 以内に抑えられ、使いやすさが保証される。
進化ベースのキーワード置換技術は、意味的意味や文脈を保ちつつ、機微な用語を効果的に置換する。
すべてのセキュリティ処理パイプラインがオンデバイス上で実行され、生のボイスデータがクラウドに晒されるのを排除する。
Android モバイルデバイスにおける実世界での展開に適した、効率的で実用的なシステムである。
音声変換とコンテンツ匿名化の組み合わせにより、アイデンティティおよびコンテンツのプライバシー漏洩に対して強い耐性が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。