Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations

Hyeong-Seok Choi, Juheon Lee|arXiv (Cornell University)|2021. 10. 27.
Speech Recognition and Synthesis인용 수 55
한 줄 요약

NANSY는 라벨 데이터 없이 제로샷 음성 변환, Yingram으로 피치 시프팅, 그리고 라벨이 필요 없는 시간-축 수정을 가능하게 하는 음성 분석 및 합성을 위한 완전한 자기지도 신경 프레임워크를 제공합니다.

ABSTRACT

We present a neural analysis and synthesis (NANSY) framework that can manipulate voice, pitch, and speed of an arbitrary speech signal. Most of the previous works have focused on using information bottleneck to disentangle analysis features for controllable synthesis, which usually results in poor reconstruction quality. We address this issue by proposing a novel training strategy based on information perturbation. The idea is to perturb information in the original input signal (e.g., formant, pitch, and frequency response), thereby letting synthesis networks selectively take essential attributes to reconstruct the input signal. Because NANSY does not need any bottleneck structures, it enjoys both high reconstruction quality and controllability. Furthermore, NANSY does not require any labels associated with speech data such as text and speaker information, but rather uses a new set of analysis features, i.e., wav2vec feature and newly proposed pitch feature, Yingram, which allows for fully self-supervised training. Taking advantage of fully self-supervised training, NANSY can be easily extended to a multilingual setting by simply training it with a multilingual dataset. The experiments show that NANSY can achieve significant improvement in performance in several applications such as zero-shot voice conversion, pitch shift, and time-scale modification.

연구 동기 및 목표

  • 임의의 음성 신호를 텍스트나 화자 라벨 없이 고수준 분석 특징을 사용하여 재구성하고 제어적으로 조작하는 것을 목표로 한다.
  • 재구성 품질을 유지하면서 언어 정보, 피치 정보, 화자 정보를 해리시키기 위해 정보 왜곡을 도입한다.
  • 다국어 설정에서 제로샷 음성 변환, 포먼트 보존 피치 시프 및 시간-scale 수정과 같은 응용을 가능하게 한다.

제안 방법

  • 언어 비의존적 언어 정보로서 wav2vec 2.0 특징(XLSR-53)을 중간 계층의 12번째 계층에서 사용한다.
  • 같은 wav2vec 표현으로부터 자기지도 화자 임베딩 네트워크로 화자 정보를 추출한다.
  • Yingram을 도입한다, Yin 기반 차이 함수에서 파생된 피치 관련 특징으로 MIDI 유사 축에 매핑되어 제어 가능한 피치를 제공한다.
  • 정보 왜곡을 wav2vec 입력에 포먼트 시프트, 피치 무작위화, 매개변수식 EQ를 계단식으로 적용하고, Yingram에 포먼트/피치 보존 왜곡을 가하여 특징 해리화를 촉진한다.
  • 합성을 두 개의 제너레이터로 나눈다: G_S(소스, Yingram에 의해 구동)와 G_F(필터, wav2vec에 의해 구동), 이들의 출 outputs를 합쳐 멜 스펙트로그램을 형성한다.
  • 자연스러움을 향상시키기 위해 L1 손실과 투사 조건 GAN 손실을 사용한 학습을 수행하고, 그 다음 waveform 재구성을 위해 HiFi-GAN을 사용한다.

실험 결과

연구 질문

  • RQ1NANSY가 텍스트나 화자 라벨 없이도 고품질 음성을 재구성하면서 언어, 피치, 화자 정보를 해리할 수 있는가?
  • RQ2정보 왜곡이 병목 기반 접근 방식보다 해리 및 재구성 품질에 의해 우수한 제어력을 제공하는가?
  • RQ3다국어 설정에서 모델이 제로샷 음성 변환 및 제어 가능한 피치 시프/시간-축 수정이 가능한가, 테스트 시점 적응이 보지 못한 언어의 성능을 향상시키는가?

주요 결과

  • NANSY는 라벨 데이터 없이 고품질 재구성과 음성, 피치, 속도에 대한 제어 가능한 조작을 제공한다.
  • Yingram은 f0보다 어려운 경우에 더 robust한 피치 표현을 제공하여 피치 제어 및 피치 시프 연산을 가능하게 한다.
  • 정보 왜곡은 해리와 재구성 품질 간의 트레이드오프를 없애 병목 기반 방법보다 음성 변환 지표에서 우수하다.
  • TSA는 테스트 시점에 입력 wav2vec 특징만 적응시켜 보지 않은 언어에서의 CER를 개선해 재학습 없이도 향상시킨다.
  • NANSY는 강력한 제로샷 음성 변환 성능, 다국어 VC, 보지 않은 언어 VC를 경쟁력 있는 MOS 및 높은 SSIM으로 시현한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.