[논문 리뷰] Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation
Parrotron은 중간 표현을 거치지 않고 입력 음성 스펙트로그램을 직접 목표 화자 스펙트로그램으로 매핑하는 엔드 투 엔드 음성-음성 변환 모델을 제안한다. 청각 장애인의 음성에서 명료성과 자연스러움을 크게 향상시키며, 음성 분리 작업에서 우수한 성능을 보이며, 노이즈가 섞인 입력보다 17.3% WER 향상으로 음성 인식 성능을 향상시킨다.
We describe Parrotron, an end-to-end-trained speech-to-speech conversion model that maps an input spectrogram directly to another spectrogram, without utilizing any intermediate discrete representation. The network is composed of an encoder, spectrogram and phoneme decoders, followed by a vocoder to synthesize a time-domain waveform. We demonstrate that this model can be trained to normalize speech from any speaker regardless of accent, prosody, and background noise, into the voice of a single canonical target speaker with a fixed accent and consistent articulation and prosody. We further show that this normalization model can be adapted to normalize highly atypical speech from a deaf speaker, resulting in significant improvements in intelligibility and naturalness, measured via a speech recognizer and listening tests. Finally, demonstrating the utility of this model on other speech tasks, we show that the same model architecture can be trained to perform a speech separation task
연구 동기 및 목표
- 모든 화자로부터의 음성 입력을 중간 이산 표현 없이 단일 기준 화자 음성으로 정규화하는 엔드 투 엔드 음성-음성 변환 모델을 개발하는 것.
- 청각 장애 화자로부터의 이면적 음성의 명료성과 자연스러움을 음성 정규화를 통해 향상시키는 것.
- 동일한 아키텍처가 겹쳐진 음성 혼합물에서의 음성 분리 작업에 적응 가능한지 평가하는 것.
- 모델이 비어 있는 언어적 정보를 유지하면서도 강세, 억양, 화자 신원과 같은 비언어적 특성을 제거하는지 확인하는 것.
- 합성 타겟이나 마스킹 기반 방법에 의존하지 않고도 음성 분리에서 예상치 못한 화자로의 일반화 능력을 평가하는 것.
제안 방법
- 모델는 원시 로그-멜 스펙트로그램을 입력 및 출력으로 처리하는 시퀀스-투-시퀀스 아키텍처를 사용하며, 인코더-디코더 구조와 자기주의 어텐션을 포함한다.
- 인코더는 배치 정규화와 다운샘플링를 갖춘 두 개의 2D 컨볼루션 레이어로 구성되며, 이어 양방향 CLSTM 및 양방향 LSTM 레이어가 이어진다.
- 디코더는 인코더의 은닉 상태에 대한 어텐션을 사용하여 타겟 스펙트로그램을 자동적으로 생성하며, 다중 작업 학습을 통해 별도의 음소 디코더를 훈련시킨다.
- 보코더는 예측된 스펙트로그램에서 최종 시간 도메인 웨이브폼을 합성하여 오디오 생성을 가능하게 한다.
- 음성 분리 작업을 위해 모델은 최대 8명의 화자로 구성된 인위적 혼합 음성에 대해 피니테이닝을 수행하며, 무작위 혼합 가중치와 정규화된 신호 강도를 사용한다.
- 모델은 테스트 세트에서 보존된 청소화된 목표 음성 문장을 혼합물로부터 재구성하도록 훈련되며, ASR WER을 통해 평가된다.
실험 결과
연구 질문
- RQ1엔드 투 엔드 음성-음성 변환 모델이 다양한 음성 입력을 하나의 기준 화자 음성으로 정규화하면서 언어적 정보를 유지할 수 있는가?
- RQ2동일한 모델 아키텍처가 화자별 맞춤 미세조정 없이도 청각 장애 화자 음성의 명료성과 자연스러움을 크게 향상시킬 수 있는가?
- RQ3Parrotron 모델이 명시적인 마스킹이나 합성 타겟 없이도 예상치 못한 화자 혼합물에서의 음성 분리 작업에 일반화될 수 있는가?
- RQ4엔드 투 엔드 음성-음성 변환 방식이 ASR-텍스트 합성 파이프라인보다 음성 품질 유지를 더 잘하고 ASR 오류를 줄일 수 있는가?
- RQ5다중 작업 음소 예측이 음성 정규화 및 분리 작업에서 모델의 강인성에 얼마나 기여하는가?
주요 결과
- Parrotron 모델은 노이즈가 섞인 혼합 음성에서 ASR WER을 33.2%에서 denoising 후 17.3%로 감소시켜 강력한 음성 분리 성능을 입증했다.
- 노이즈 조건에서 단어 삽입 수를 19.1%에서 2.2%로 크게 감소시켜 배경 화자 음성의 효과적인 억제를 확인했다.
- 청취 테스트 결과, 정규화된 청각 장애 화자 음성이 원래의 이면적 음성보다 더 명료하고 자연스럽게 평가되었다.
- Denoised 음성 분리 테스트 세트에서 모델은 17.3%의 WER을 기록했으며, 원래의 노이즈가 섞인 입력(33.2% WER)보다 뛰어난 성능을 보였다.
- 다중 작업 음소 예측은 특히 도전적인 이면적 음성 케이스에서 언어적 정보 유지 능력을 향상시켜 모델의 성능을 강화했다.
- 모델는 음성 분리 작업에서 예상치 못한 화자로의 일반화 능력을 보이며, 훈련 분포를 초월한 강인성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.