QUICK REVIEW

[논문 리뷰] Preech: A System for Privacy-Preserving Speech Transcription

Shimaa Ahmed, Amrita Roy Chowdhury|arXiv (Cornell University)|2019. 09. 09.

Speech Recognition and Synthesis인용 수 7

한 줄 요약

Preech는 화자 음성 생체정보를 흐리게 하고 텍스트 콘텐츠에 미세한 차별을 적용하여 기밀성을 향상시키는 음성 전사 시스템이다. 클라우드 기반 음성 인식 서비스에 전사 작업을 위탁하기 전에 클라이언트 측 전처리를 수행함으로써 Deep Speech 대비 평균 17.34% 향상된 단어 오류율을 달성한다.

ABSTRACT

New Advances in machine learning have made Automated Speech Recognition (ASR) systems practical and more scalable. These systems, however, pose serious privacy threats as speech is a rich source of sensitive acoustic and textual information. Although offline and open-source ASR eliminates the privacy risks, its transcription performance is inferior to that of cloud-based ASR systems, especially for real-world use cases. In this paper, we propose Pr$\epsilon\epsilon$ch, an end-to-end speech transcription system which lies at an intermediate point in the privacy-utility spectrum. It protects the acoustic features of the speakers' voices and protects the privacy of the textual content at an improved performance relative to offline ASR. Additionally, Pr$\epsilon\epsilon$ch provides several control knobs to allow customizable utility-usability-privacy trade-off. It relies on cloud-based services to transcribe a speech file after applying a series of privacy-preserving operations on the user's side. We perform a comprehensive evaluation of Pr$\epsilon\epsilon$ch, using diverse real-world datasets, that demonstrates its effectiveness. Pr$\epsilon\epsilon$ch provides transcriptions at a 2% to 32.25% (mean 17.34%) relative improvement in word error rate over Deep Speech, while fully obfuscating the speakers' voice biometrics and allowing only a differentially private view of the textual content.

연구 동기 및 목표

클라우드 기반 음성 인식 시스템이 노출하는 민감한 음향 및 텍스트 데이터의 기밀성 위험을 해결하기 위해.
오프라인 ASR(기밀성은 확보되나 정확도가 낮음)과 클라우드 기반 ASR(정확도는 높지만 기밀성 침해 위험 있음) 사이의 격차를 메우기 위해.
사용성, 기능성, 기밀성 간의 맞춤형 트레이드오프를 제공하는 시스템을 설계하기 위해.
화자 신원과 전사된 텍스트의 미세한 차별적 시각을 포함한 종단간 전사 보호를 가능하게 하기 위해.
다양한 실제 환경 데이터셋을 대상으로 시스템의 효과성과 실용성을 입증하기 위해.

제안 방법

시스템은 클라우드 기반 ASR 서비스에 오디오를 전송하기 전에 클라이언트 측 전처리를 수행하여 화자 음성 생체정보를 흐리게 한다.
재식별 위험을 줄이기 위해 텍스트 전사 결과에 대해 미세한 차별을 적용한다.
오디오 신호와 전사 데이터에 대한 기밀성 보존 전환 파이프라인을 사용한다.
기밀성, 기능성, 사용성 간의 트레이드오프를 조정할 수 있는 구성 가능한 제어 장치를 통합한다.
고정밀도를 확보하기 위해 클라이언트 측 기밀성 조치 후 클라우드 기반 ASR를 활용하여 전사를 수행한다.
기밀성 유지와 함께 전사 품질 저하를 최소화하기 위해 종단간 설계를 구현한다.

실험 결과

연구 질문

RQ1오프라인 ASR보다 더 높은 전사 정확도를 확보하면서도 화자 기밀성을 유지할 수 있는가?
RQ2전사 기능성에 영향을 주지 않으면서 음성 생체정보를 얼마나 효과적으로 흐리게 할 수 있는가?
RQ3미세한 차별이 텍스트 콘텐츠의 재식별 위험을 얼마나 효과적으로 줄이는가?
RQ4음성 전사에서 기밀성, 정확도, 사용성 간의 가능한 트레이드오프는 무엇인가?
RQ5다양한 실제 환경 음성 데이터셋에서 시스템이 높은 성능을 유지할 수 있는가?

주요 결과

Preech는 다양한 실제 환경 데이터셋에서 Deep Speech 대비 평균 17.34% 향상된 단어 오류율을 달성한다.
시스템은 Deep Speech 대비 2%에서 32.25%까지 단어 오류율을 감소시켜 뚜렷한 성능 향상을 입증한다.
화자 음성 생체정보가 완전히 흐리지며, 음향 특징을 통한 신원 식별을 방지한다.
텍스트 콘텐츠는 미세한 차별을 통해 보호되어 민감한 정보 泄露 위험을 줄인다.
구성 가능한 제어 장치를 통해 기밀성-기능성 트레이드오프를 맞춤형으로 설정할 수 있다.
포괄적인 평가를 통해 시스템의 효과성과 다양한 실제 환경 음성 데이터에 대한 강건성을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.