[论文解读] Preech: A System for Privacy-Preserving Speech Transcription
Preech 是一种保护隐私的语音转录系统,通过混淆说话人语音生物特征并为文本内容应用差分隐私,增强了隐私保护,同时在将转录任务卸载到基于云的自动语音识别(ASR)服务之前,通过客户端预处理,实现了比 Deep Speech 低 17.34% 的平均相对词错误率(WER)。
New Advances in machine learning have made Automated Speech Recognition (ASR) systems practical and more scalable. These systems, however, pose serious privacy threats as speech is a rich source of sensitive acoustic and textual information. Although offline and open-source ASR eliminates the privacy risks, its transcription performance is inferior to that of cloud-based ASR systems, especially for real-world use cases. In this paper, we propose Pr$\epsilon\epsilon$ch, an end-to-end speech transcription system which lies at an intermediate point in the privacy-utility spectrum. It protects the acoustic features of the speakers' voices and protects the privacy of the textual content at an improved performance relative to offline ASR. Additionally, Pr$\epsilon\epsilon$ch provides several control knobs to allow customizable utility-usability-privacy trade-off. It relies on cloud-based services to transcribe a speech file after applying a series of privacy-preserving operations on the user's side. We perform a comprehensive evaluation of Pr$\epsilon\epsilon$ch, using diverse real-world datasets, that demonstrates its effectiveness. Pr$\epsilon\epsilon$ch provides transcriptions at a 2% to 32.25% (mean 17.34%) relative improvement in word error rate over Deep Speech, while fully obfuscating the speakers' voice biometrics and allowing only a differentially private view of the textual content.
研究动机与目标
- 解决基于云的 ASR 系统暴露敏感声学和文本数据所引发的隐私风险。
- 弥合离线 ASR(隐私保护但准确率低)与基于云的 ASR(准确率高但侵犯隐私)之间的差距。
- 设计一种可在语音转录中实现隐私、可用性和实用性之间可定制权衡的系统。
- 实现端到端转录,全面保护说话人身份,并对转录文本提供差分隐私视图。
- 在多样化的现实世界数据集上评估系统,以证明其有效性和实用性。
提出的方法
- 系统在客户端执行预处理,以混淆说话人语音生物特征,然后将音频发送至基于云的 ASR 服务。
- 通过差分隐私保护转录文本输出,以降低从转录内容中重新识别的风险。
- 该架构采用音频信号和转录数据上的一系列隐私保护转换的流水线处理。
- 集成可配置的控制旋钮,以调节隐私、实用性与可用性之间的权衡。
- 系统在客户端完成隐私操作后,依赖基于云的 ASR 进行转录,确保高准确率。
- 采用端到端设计,在最小化转录质量退化的同时维持隐私保护。
实验结果
研究问题
- RQ1系统能否在保护说话人隐私的同时,实现比离线 ASR 更高的转录准确率?
- RQ2在不降低转录实用性的前提下,语音生物特征最多能被混淆到何种程度?
- RQ3差分隐私在防止文本内容被重新识别方面有多有效?
- RQ4在语音转录中,隐私、准确率与可用性之间的可实现权衡是什么?
- RQ5该系统能否在多样化的现实世界语音数据集中保持高性能?
主要发现
- Preech 在多样化的真实世界数据集上,相较于 Deep Speech,实现了 17.34% 的平均相对词错误率(WER)降低。
- 与 Deep Speech 相比,系统将词错误率降低了 2% 至 32.25%,显示出显著的性能提升。
- 说话人语音生物特征被完全混淆,防止通过声学特征进行身份识别。
- 通过差分隐私保护文本内容,有效降低了敏感信息泄露的风险。
- 系统通过可配置的控制旋钮,实现了可定制的隐私-实用性权衡。
- 全面评估证实了系统在多样化真实世界语音数据上的有效性与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。