[論文レビュー] Preech: A System for Privacy-Preserving Speech Transcription
Preech は、話者本人の声のバイオメトリクスをぼかし、テキスト内容に微分プライバシーを適用することで、プライバシーを保護する音声字下げシステムであり、クラウドベースのASRサービスに音声をオフロードする前にクライアント側で前処理を行うことで、Deep Speech よりも平均17.34%の語誤り率の相対的改善を達成している。
New Advances in machine learning have made Automated Speech Recognition (ASR) systems practical and more scalable. These systems, however, pose serious privacy threats as speech is a rich source of sensitive acoustic and textual information. Although offline and open-source ASR eliminates the privacy risks, its transcription performance is inferior to that of cloud-based ASR systems, especially for real-world use cases. In this paper, we propose Pr$\epsilon\epsilon$ch, an end-to-end speech transcription system which lies at an intermediate point in the privacy-utility spectrum. It protects the acoustic features of the speakers' voices and protects the privacy of the textual content at an improved performance relative to offline ASR. Additionally, Pr$\epsilon\epsilon$ch provides several control knobs to allow customizable utility-usability-privacy trade-off. It relies on cloud-based services to transcribe a speech file after applying a series of privacy-preserving operations on the user's side. We perform a comprehensive evaluation of Pr$\epsilon\epsilon$ch, using diverse real-world datasets, that demonstrates its effectiveness. Pr$\epsilon\epsilon$ch provides transcriptions at a 2% to 32.25% (mean 17.34%) relative improvement in word error rate over Deep Speech, while fully obfuscating the speakers' voice biometrics and allowing only a differentially private view of the textual content.
研究の動機と目的
- クラウドベースのASRシステムが、機密な音声的およびテキスト的データを露呈するというプライバシーのリスクに対処すること。
- オフラインASR(プライバシーは保証されるが精度が低い)とクラウドベースASR(正確ではあるがプライバシーを侵害する)の間のギャップを埋めること。
- 音声字下げにおける利便性、使いやすさ、プライバシーの間のカスタマイズ可能なトレードオフを提供するシステムを設計すること。
- 話者本人のアイデンティティと、微分プライバシーを適用した視点からの字下げテキストを完全に保護するエンドツーエンドの字下げを可能にすること。
- 多様な実世界のデータセットを用いて評価し、実効性と実用性を示すこと。
提案手法
- システムは、音声をクラウドベースのASRサービスに送信する前に、話者本人の声のバイオメトリクスをぼかすクライアント側の前処理を実行する。
- 再識別リスクを低減するために、テキストの字下げ出力を微分プライバシーを適用する。
- 音声信号および字下げデータに対して、プライバシー保護型変換のパイプラインを採用する。
- プライバシー、利便性、使いやすさのトレードオフを調整できる、設定可能な制御ノブを統合する。
- クライアント側でのプライバシー処理を経て、クラウドベースASRを用いて字下げを実行することで、高い精度を確保する。
- エンドツーエンドの設計により、字下げ品質の劣化を最小限に抑えながらプライバシーを維持する。
実験結果
リサーチクエスチョン
- RQ1オフラインASRより高い字下げ精度を実現しつつ、話者のプライバシーを保護できるシステムは構築可能か?
- RQ2音声バイオメトリクスをどれだけぼかしても、字下げの利便性が著しく低下しないか?
- RQ3微分プライバシーは、再識別リスクからテキストコンテンツを効果的に保護できるか?
- RQ4音声字下げにおいて、プライバシー、正確性、使いやすさの間で達成可能なトレードオフはどの程度か?
- RQ5多様な実世界の音声データセットにおいて、システムは高いパフォーマンスを維持できるか?
主な発見
- Preech は、多様な実世界のデータセットにおいて、Deep Speech よりも平均17.34%の語誤り率の相対的改善を達成した。
- システムは、Deep Speech よりも語誤り率を2%から32.25%まで低減し、顕著なパフォーマンス向上を示した。
- 話者の声のバイオメトリクスは完全にぼかされており、音声特徴による識別が不可能である。
- テキストコンテンツは微分プライバシーによって保護されており、機密情報の漏洩リスクが低減された。
- 設定可能な制御ノブにより、プライバシーと利便性のカスタマイズ可能なトレードオフが可能である。
- 包括的な評価により、システムの有効性と多様な実世界の音声データに対する頑健性が確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。