[논문 리뷰] Preech: A System for Privacy-Preserving Speech Transcription
Preech는 화자 음성 생체정보를 흐리게 하고 텍스트 콘텐츠에 미세한 차별을 적용하여 기밀성을 향상시키는 음성 전사 시스템이다. 클라우드 기반 음성 인식 서비스에 전사 작업을 위탁하기 전에 클라이언트 측 전처리를 수행함으로써 Deep Speech 대비 평균 17.34% 향상된 단어 오류율을 달성한다.
New Advances in machine learning have made Automated Speech Recognition (ASR) systems practical and more scalable. These systems, however, pose serious privacy threats as speech is a rich source of sensitive acoustic and textual information. Although offline and open-source ASR eliminates the privacy risks, its transcription performance is inferior to that of cloud-based ASR systems, especially for real-world use cases. In this paper, we propose Pr$\epsilon\epsilon$ch, an end-to-end speech transcription system which lies at an intermediate point in the privacy-utility spectrum. It protects the acoustic features of the speakers' voices and protects the privacy of the textual content at an improved performance relative to offline ASR. Additionally, Pr$\epsilon\epsilon$ch provides several control knobs to allow customizable utility-usability-privacy trade-off. It relies on cloud-based services to transcribe a speech file after applying a series of privacy-preserving operations on the user's side. We perform a comprehensive evaluation of Pr$\epsilon\epsilon$ch, using diverse real-world datasets, that demonstrates its effectiveness. Pr$\epsilon\epsilon$ch provides transcriptions at a 2% to 32.25% (mean 17.34%) relative improvement in word error rate over Deep Speech, while fully obfuscating the speakers' voice biometrics and allowing only a differentially private view of the textual content.
연구 동기 및 목표
- 클라우드 기반 음성 인식 시스템이 노출하는 민감한 음향 및 텍스트 데이터의 기밀성 위험을 해결하기 위해.
- 오프라인 ASR(기밀성은 확보되나 정확도가 낮음)과 클라우드 기반 ASR(정확도는 높지만 기밀성 침해 위험 있음) 사이의 격차를 메우기 위해.
- 사용성, 기능성, 기밀성 간의 맞춤형 트레이드오프를 제공하는 시스템을 설계하기 위해.
- 화자 신원과 전사된 텍스트의 미세한 차별적 시각을 포함한 종단간 전사 보호를 가능하게 하기 위해.
- 다양한 실제 환경 데이터셋을 대상으로 시스템의 효과성과 실용성을 입증하기 위해.
제안 방법
- 시스템은 클라우드 기반 ASR 서비스에 오디오를 전송하기 전에 클라이언트 측 전처리를 수행하여 화자 음성 생체정보를 흐리게 한다.
- 재식별 위험을 줄이기 위해 텍스트 전사 결과에 대해 미세한 차별을 적용한다.
- 오디오 신호와 전사 데이터에 대한 기밀성 보존 전환 파이프라인을 사용한다.
- 기밀성, 기능성, 사용성 간의 트레이드오프를 조정할 수 있는 구성 가능한 제어 장치를 통합한다.
- 고정밀도를 확보하기 위해 클라이언트 측 기밀성 조치 후 클라우드 기반 ASR를 활용하여 전사를 수행한다.
- 기밀성 유지와 함께 전사 품질 저하를 최소화하기 위해 종단간 설계를 구현한다.
실험 결과
연구 질문
- RQ1오프라인 ASR보다 더 높은 전사 정확도를 확보하면서도 화자 기밀성을 유지할 수 있는가?
- RQ2전사 기능성에 영향을 주지 않으면서 음성 생체정보를 얼마나 효과적으로 흐리게 할 수 있는가?
- RQ3미세한 차별이 텍스트 콘텐츠의 재식별 위험을 얼마나 효과적으로 줄이는가?
- RQ4음성 전사에서 기밀성, 정확도, 사용성 간의 가능한 트레이드오프는 무엇인가?
- RQ5다양한 실제 환경 음성 데이터셋에서 시스템이 높은 성능을 유지할 수 있는가?
주요 결과
- Preech는 다양한 실제 환경 데이터셋에서 Deep Speech 대비 평균 17.34% 향상된 단어 오류율을 달성한다.
- 시스템은 Deep Speech 대비 2%에서 32.25%까지 단어 오류율을 감소시켜 뚜렷한 성능 향상을 입증한다.
- 화자 음성 생체정보가 완전히 흐리지며, 음향 특징을 통한 신원 식별을 방지한다.
- 텍스트 콘텐츠는 미세한 차별을 통해 보호되어 민감한 정보 泄露 위험을 줄인다.
- 구성 가능한 제어 장치를 통해 기밀성-기능성 트레이드오프를 맞춤형으로 설정할 수 있다.
- 포괄적인 평가를 통해 시스템의 효과성과 다양한 실제 환경 음성 데이터에 대한 강건성을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.