Skip to main content
QUICK REVIEW

[논문 리뷰] SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing

Junyi Ao, Rui Wang|arXiv (Cornell University)|2021. 10. 14.
Speech Recognition and Synthesis인용 수 30
한 줄 요약

SpeechT5는 모달별 전처/후처 네트와 공유 모델을 활용한 단일 인코더-디코더 프리트레이닝 프레임워크를 제시하며, 음성 및 텍스트에 대한 교차 모달 표현을 학습하고 ASR, TTS, ST, VC, SE, SID를 포함한 다양한 음성 언어 태스크를 가능하게 한다.

ABSTRACT

Motivated by the success of T5 (Text-To-Text Transfer Transformer) in pre-trained natural language processing models, we propose a unified-modal SpeechT5 framework that explores the encoder-decoder pre-training for self-supervised speech/text representation learning. The SpeechT5 framework consists of a shared encoder-decoder network and six modal-specific (speech/text) pre/post-nets. After preprocessing the input speech/text through the pre-nets, the shared encoder-decoder network models the sequence-to-sequence transformation, and then the post-nets generate the output in the speech/text modality based on the output of the decoder. Leveraging large-scale unlabeled speech and text data, we pre-train SpeechT5 to learn a unified-modal representation, hoping to improve the modeling capability for both speech and text. To align the textual and speech information into this unified semantic space, we propose a cross-modal vector quantization approach that randomly mixes up speech/text states with latent units as the interface between encoder and decoder. Extensive evaluations show the superiority of the proposed SpeechT5 framework on a wide variety of spoken language processing tasks, including automatic speech recognition, speech synthesis, speech translation, voice conversion, speech enhancement, and speaker identification. We release our code and model at https://github.com/microsoft/SpeechT5.

연구 동기 및 목표

  • 소리 없는 데이터와 텍스트 데이터를 모두 활용하는 음성 언어 처리용 단일 인코더-디코더 프리-트레이닝 프레임워크의 동기화 및 설계.
  • 음성 및 텍스트 간의 교차 모달 정렬을 공유 코드북과 혼합 잠재 표현을 통해 개발.
  • 광범위한 다운스트림 태스크에서 SpeechT5의 효과를 다양한 실험으로 입증.
  • joint 프리-트레이닝 및 교차 모달 구성요소의 기여를 검증하기 위한 어블레이션 제공.

제안 방법

  • 음성/텍스트 입력과 출력을 처리하기 위해 여섯 개의 모달별 프리/포넷을 가진 단일 인코더-디코더 백본을 채택한다.
  • 양방향 마스킹 예측 및 음성의 seq2seq 재구성 손실을 포함한 비표지 데이터에서 denoising sequence-to-sequence 목표로 프리-트레이닝한다.
  • 음향적 표현과 텍스트 표현을 정렬하기 위해 공유 코드북과 교차 모달 벡터 양자화를 도입하고, 코드 사용 다양성을 촉진하는 다양성 손실을 적용한다.
  • 적절한 프리/포넷을 부착하여 다운스트림 태스크에 맞게 인코더-디코더 백본을 미세 조정한다(예: ASR, TTS, ST, VC, SE, SID).
  • self-attention에서 상대 위치 임베딩을 사용하고, wav2vec 2.0 유사한 음성 프리넷, 생성 태스크의 파형 생성을 위한 보코더를 활용한다.

실험 결과

연구 질문

  • RQ1단일의 통합 인코더-디코더 모델이 비레이블 음성 및 텍스트에서 사전 학습되었을 때 광범위한 음성 언어 처리 태스크를 효과적으로 지원할 수 있는가?
  • RQ2교차 모달 벡터 양자화가 ASR 및 TTS와 같은 교차 모달 태스크의 정렬 및 성능을 향상시키는가?
  • RQ3공유 음성-텍스트 프리-트레이닝과 단일 모달 프리-트레이닝이 다운스트림 음성 언어 태스크에 미치는 영향은 어떠한가?
  • RQ4SpeechT5가 ASR, TTS, ST, VC, SE, SID에서 최첨단 기준과 비교해 어떤 성능을 보이는가?

주요 결과

모델dev-clean WERdev-other WERtest-clean WERtest-other WER
wav2vec 2.0 Base-6.113.56.113.3
HuBERT Base-5.513.15.813.3
Baseline (w/o CTC)-5.812.36.212.3
Baseline-4.911.75.011.9
SpeechT5 (w/o CTC)-5.410.75.810.7
SpeechT5-4.310.34.410.4
  • SpeechT5는 LM 융합이 포함된 ASR에서 wav2vec 2.0 Base 및 HuBERT Base보다 더 높은 성능을 보여(실험 표 1 참조), WER가 더 낮다.
  • SpeechT5는 기본 모델 대비 CMOS 이득과 함께 자연스러운 TTS 및 MOS를 달성한다.
  • SpeechT5는 ST에서 EN-DE 및 EN-FR BLEU 점수 등 여러 베이스라인보다 향상된 성능을 보인다(표 4).
  • SpeechT5는 VC 및 SE 태스크에서 기존 방법을 능가하며, Mel-Cepstral Distortion 및 WER 지표에서 경쟁력 있는 성능을 보여준다(표 2, 표 5).
  • SID에서 SpeechT5는 VoxCeleb1에서 최첨단 정확도(96.49%)를 달성한다(표 6).
  • 어블레이션 연구는 프리-트레이닝의 어떤 구성 요소라도 제거하면 ASR, VC, SID 성능이 저하되며, 음성 프리-트레이닝과 공동 프리-트레이닝이 특히 큰 영향을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.