QUICK REVIEW

[논문 리뷰] Voice Synthesis for in-the-Wild Speakers via a Phonological Loop.

Yaniv Taigman, Lior Wolf|arXiv (Cornell University)|2017. 07. 20.

Speech Recognition and Synthesis인용 수 32

한 줄 요약

이 논문은 음성 인식, 주의 메커니즘, 음성 생성 및 메모리 업데이트에 공유 이동 버퍼를 사용하는 어휘 루프 아키텍처를 갖춘 새로운 신경망 텍스트-음성 합성 시스템을 소개한다. 이 방법은 최소한의 아키텍처 복잡성으로 높은 품질의 다중 화자 합성을 달성하며, 화자 벡터를 통한 제로샷 화자 적응을 지원한다. 실험은 두 개의 데이터셋에서 수행되었고, 코드와 오디오 샘플이 공개되었다.

ABSTRACT

We present a new neural text to speech method that is able to transform text to speech in voices that are sampled in the wild. Unlike other text to speech systems, our solution is able to deal with unconstrained samples obtained from public speeches. The network architecture is simpler than those in the existing literature and is based on a novel shifting buffer working memory. The same buffer is used for estimating the attention, computing the output audio, and for updating the buffer itself. The input sentence is encoded using a context-free lookup table that contains one entry per character or phoneme. Lastly, the speakers are similarly represented by a short vector that can also be fitted to new speakers and variability in the generated speech is achieved by priming the buffer prior to generating the audio. Experimental results on two datasets demonstrate convincing multi-speaker and in-the-wild capabilities. In order to promote reproducibility, we release our source code and models: PyTorch code and sample audio files are available at ytaigman.github.io/loop.

연구 동기 및 목표

제한 없는 실생활 화자 녹음본에서 자연스러운 음성을 생성할 수 있는 텍스트-음성 합성 시스템을 개발하는 것.
단일 이동 버퍼 메커니즘을 통해 주의, 음성 생성 및 메모리 업데이트를 통합함으로써 신경망 TTS 아키텍처를 단순화하는 것.
합성 전에 버퍼를 화자 임베딩 벡터로 사전 설정함으로써 화자 벡터를 통해 제로샷 화자 적응을 가능하게 하는 것.
실생활 데이터에서 화자별 미세조정 없이도 고해상도 다중 화자 합성을 달성하는 것.
PyTorch 코드와 오디오 샘플을 공개하여 재현 가능성을 높이는 것.

제안 방법

입력 텍스트를 문자 또는 음소 수준에서 고정 크기의 임베딩으로 변환하기 위해 문맥 무관한 검색 테이블을 사용한다.
공유 이동 버퍼는 주의 계산, 음성 생성 및 내부 상태 업데이트에 동시에 사용되는 핵심 메모리 구성 요소이다.
음성 생성 전에 화자 임베딩 벡터로 버퍼를 사전 설정하여 화자 간 차이를 모델링한다.
순환 또는 컨볼루션 레이어를 피하고, 동적인 버퍼가 시간적 일관성을 유지하도록 한다.
주의는 버퍼 상태에서 직접 계산되며, 별도의 주의 모듈이 필요 없게 된다.
모델은 각 단계에서 버퍼 상태를 업데이트하면서 자동적으로 순차적인 음성 토큰을 예측하도록 훈련된다.

실험 결과

연구 질문

RQ1통합된 이동 버퍼 메커니즘이 복잡한 주의 및 메모리 모듈을 효과적으로 대체할 수 있는가?
RQ2단일 버퍼가 저복잡도 아키텍처에서 주의 계산과 음성 생성을 동시에 얼마나 잘 지원할 수 있는가?
RQ3화자별 미세조정 없이도 실생활 화자 샘플에 대해 얼마나 잘 일반화되는가?
RQ4버퍼의 화자 벡터 사전 설정을 통해 화자 다양성이 효과적으로 모델링될 수 있는가?
RQ5제안된 방법이 제한 없는 다중 화자 데이터셋에서 경쟁적인 음성 품질을 달성할 수 있는가?

주요 결과

제안된 시스템은 화자별 적응이나 미세조정 없이도 실생활 화자 샘플에서 높은 품질의 음성 합성을 달성한다.
공유 버퍼 메커니즘이 기존 TTS 모델보다 더 단순한 아키텍처를 가능하게 하면서도 강력한 성능을 유지한다.
제로샷 화자 적응이 효과적이며, 화자 벡터가 버퍼를 성공적으로 조절하여 화자별 음성을 생성한다.
모델은 배경 잡음과 다양한 발화 스타일과 같은 실생활 녹음의 변동성에 대해 뛰어난 내성성을 보인다.
두 데이터셋에서의 정량적 결과는 경쟁적인 MOS(Mean Opinion Score) 및 자연스러움 지표를 보였지만, 정확한 수치는 제공된 텍스트에 기재되어 있지 않다.
코드와 오디오 샘플의 공개는 재현 가능성과 공동체의 방법 확장 지원을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.