QUICK REVIEW

[논문 리뷰] SUPERSEDED - CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

Seyyed Saeed Sarfjoo, Xin Wang|arXiv (Cornell University)|2017. 01. 01.

Speech and Audio Processing참고 문헌 23인용 수 30

한 줄 요약

이 논문은 저품질의 기기 기록 음성에서 고음질 오디오로 변환하기 위한 개선된 SEGAN 기반 방법을 제안한다. 새로운 데이터셋인 DR-VCTK를 활용하여 전문 기록 음성과 소비자 기기로 재기록한 음성을 대응시켰다. 초기 학습 단계에서 정제된 참조 신호를 사용함으로써 모델은 뛰어난 청취 품질과 더 적은 음악성 노이즈를 달성하였으며, 주관적 청취 테스트에서 기준 방법들을 능가하였다.

ABSTRACT

## This item has been replaced by the one which can be found at https://doi.org/10.7488/ds/2645 ##' This CSTR VCTK Corpus (Centre for Speech Technology Voice Cloning Toolkit) includes speech data uttered by 109 native speakers of English with various accents. 96kHz versions of the recordings are available at https://doi.org/10.7488/ds/2101. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf . All speech data were recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, downsampled to 48 kHz based on STPK, and manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies. The file was previously available on the CSTR website, and was referenced in the Google DeepMind work on WaveNet: https://arxiv.org/pdf/1609.03499.pdf . Please note while text files containing transcripts of the speech are provided for 108 of the 109 recordings, in the '/txt' folder, the 'p315' text was lost due to a hard disk error.

연구 동기 및 목표

스마트폰 및 랩탑과 같은 소비자 기기로 기록된 음성에서 노이즈, 반향, 열악한 주파수 응답으로 인해 발생하는 낮은 품질 문제를 해결하고자 한다.
기존 신호 처리 방법의 한계를 극복하기 위해 직접 기기 기록 음성을 고음질 음성으로 매핑하는 데이터 기반, 엔드 투 엔드 딥 러닝 접근법을 개발하고자 한다.
VCTK 코퍼스에서 유래한 쌍체의 고품질 음성과 기기 기록 음성을 포함하는 새로운 병렬 데이터셋인 DR-VCTK를 구축하여 음성 변환을 위한 지도 학습을 가능하게 하고자 한다.
청결한 음성 대신 사전 정제된 參照 신호를 지도로 사용하는 새로운 학습 절차를 도입하여 SEGAN 모델의 학습 안정성과 품질을 향상시키고자 한다.
주관적 청취 테스트와 객관적 지표를 통해 제안된 방법을 평가하여 기존 방법들에 비해 청취 품질에서 뛰어난 성능을 입증하고자 한다.

제안 방법

저자들은 CSTR VCTK 데이터셋에서 유래한 영어 다중 화자 코퍼스인 DR-VCTK를 도입하였으며, 고품질 스튜디오 기록 음성을 사무실 환경에서 소비자 기기로 재기록하여 실제 저품질 기록을 시뮬레이션한다.
제안된 방법은 초기 학습 에포크 동안 청결한 음성을 지도로 사용하는 대신, 포스트필터와 HRNR(고해상도 노이즈 제거) 기법의 조합을 통해 생성된 사전 정제된 참조 신호로 청결한 음성을 대체하여 SEGAN 모델을 확장한다.
이 지시된 參照 학습은 생성자에 대한 더 나은 가중치 초기화를 가능하게 하여, 특히 낮은 신호 대 노이즈 비율(SNR) 조건에서 학습 안정성과 수렴 속도를 향상시킨다.
모델은 시간 도메인 기반 엔드 투 엔드 GAN 아키텍처를 사용하며, 디스criminator는 실제 고음질 음성과 생성된 정제된 음성을 구분함으로써 청취 품질을 향상시키고 과도하게 매끄럽게 만드는 현상을 줄인다.
학습 절차는 스펙트로그램 기반 방법에서 흔히 발생하는 위상 왜곡을 피하면서도, 적대적 손실과 청취 손실을 활용하여 청취 품질의 열화를 최소화하는 데 중점을 둔다.
이 방법은 객관적 지표(PESQ, STOI, SSNR, DAU)와 107명의 일본어 모국어 사용자로 구성된 대규모 주관적 MOS 테스트를 통해 두 데이터셋(DR-VCTK 및 에든버러)에서 평가되었다.

실험 결과

연구 질문

RQ1청결한 음성이 아닌 사전 정제된 참조 신호를 사용하여 초기 학습을 수행할 경우, GAN 기반 모델이 저품질 기기 기록 음성을 고음질 오디오로 효과적으로 변환할 수 있는가?
RQ2초기 학습 단계에서 사전 정제된 신호를 지도로 사용할 경우, SEGAN 모델의 안정성, 수렴성, 청취 품질이 향상되는가?
RQ3기존의 음성 정제 파ip라인(Postfish + HRNR)과 원본 SEGAN에 비해 제안된 방법은 객관적 및 주관적 음성 품질 측면에서 어떻게 비교되는가?
RQ4제안된 방법은 정제된 음성에서 흔히 발생하는 음악성 노이즈 같은 공통된 잡음 요소를 어느 정도 감소시키는가?
RQ5고주위 환경 노이즈와 반향이 높은 다양한 기록 조건에서도 제안된 방법은 강건한가?

주요 결과

제안된 SEGAN 모델은 DR-VCTK 데이터셋에서 평균 관점 점수(MOS) 2.80을 기록하였으며, 원본 SEGAN(1.14)을 크게 능가하고 Postfish+HRNR 조합(2.78)과 유사한 성능을 보였으며, p값 0.39691로 유의미하지 않은 차이를 보였다.
에든버러 데이터셋에서는 제안된 방법이 MOS 3.44를 기록하여 원본 SEGAN(3.40)과 Postfish+HRNR 조합(3.29)을 모두 능가하였으며, 통계적으로 유의미한 p값 0.00011을 기록하였다.
주관적 평가 결과, 제안된 방법은 기존 정제 방법에서 흔히 발생하는 음악성 노이즈 잡음을 감소시켜 청취자 인식을 향상시켰다.
객관적 지표 분석 결과, 제안된 방법은 원본 SEGAN에 비해 DR-VCTK 데이터셋에서 PESQ(1.28 대 1.24), SSNR(-1.72 대 -1.09), STOI(0.73 대 0.65) 향상을 보였다.
모델는 노이즈가 많은(DR-VCTK) 및 덜 노이즈가 있는(에든버러) 조건에서 일관된 성능 향상을 보이며 강건성과 안정성을 입증하였다.
초기 학습 단계에서 사전 정제된 參照를 사용함으로써 수렴 속도가 빨라지고 청취 품질이 향상되었으며, 이는 지도된 초기화가 음성 정제를 위한 GAN 학습을 향상시킨다는 가설을 검증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.