QUICK REVIEW

[论文解读] SUPERSEDED - CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

Seyyed Saeed Sarfjoo, Xin Wang|arXiv (Cornell University)|Jan 1, 2017

Speech and Audio Processing参考文献 23被引用 30

一句话总结

本文提出了一种基于SEGAN的改进方法，通过使用新数据集DR-VCTK，将低质量设备录制的语音转换为高保真音频。该数据集包含专业录音与消费者设备重录版本的配对数据。通过在早期训练中使用预增强参考信号，模型实现了更优的主观质量并减少了音乐噪声，在主观听音测试中优于基线方法。

ABSTRACT

## This item has been replaced by the one which can be found at https://doi.org/10.7488/ds/2645 ##' This CSTR VCTK Corpus (Centre for Speech Technology Voice Cloning Toolkit) includes speech data uttered by 109 native speakers of English with various accents. 96kHz versions of the recordings are available at https://doi.org/10.7488/ds/2101. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf . All speech data were recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, downsampled to 48 kHz based on STPK, and manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies. The file was previously available on the CSTR website, and was referenced in the Google DeepMind work on WaveNet: https://arxiv.org/pdf/1609.03499.pdf . Please note while text files containing transcripts of the speech are provided for 108 of the 109 recordings, in the '/txt' folder, the 'p315' text was lost due to a hard disk error.

研究动机与目标

解决使用智能手机和笔记本电脑等消费设备录制的语音所面临的噪声、混响和频率响应差等问题。
开发一种数据驱动的端到端深度学习方法，直接将设备录制的语音映射为高质量语音，克服传统信号处理方法的局限性。
创建一个新的平行数据集DR-VCTK，包含来自VCTK语料库的高质量录音与设备录制语音的配对数据，支持语音转换的监督训练。
通过引入一种新型训练流程，使用预增强参考信号而非干净语音作为真实标签，改进SEGAN模型在语音增强中的训练稳定性和质量。
通过客观指标和大规模主观听音测试评估所提方法，证明其在主观质量上优于现有方法。

提出的方法

作者提出了DR-VCTK，一个源自CSTR VCTK数据集的新英语多说话人语料库，其中高质量录音室录音在办公室环境中使用消费设备重新录制，以模拟现实世界中的低质量录音。
所提方法通过在初始训练阶段用预增强参考信号（通过组合后滤波器与HRNR（高分辨率噪声抑制）技术生成）替代干净语音作为真实标签，扩展了SEGAN模型。
这种定向参考训练使生成器的权重初始化更优，提升了训练稳定性与收敛速度，尤其在低信噪比（SNR）条件下表现更佳。
模型采用时域端到端生成对抗网络（GAN）架构，判别器用于区分真实高质量语音与生成的增强语音，从而提升主观质量并减少过度平滑现象。
训练过程通过对抗损失与感知损失最小化感知失真，同时避免STFT方法常见的相位失真。
该方法在DR-VCTK和爱丁堡两个数据集上，通过客观指标（PESQ、STOI、SSNR、DAU）和大规模主观MOS测试（107名母语为日语的听者）进行了评估。

实验结果

研究问题

RQ1当使用预增强参考信号而非干净语音作为监督信号进行训练时，基于GAN的模型是否能有效将低质量设备录制的语音转换为高保真音频？
RQ2在早期训练中使用预增强信号作为监督是否能提升SEGAN模型的训练稳定性、收敛速度与主观质量？
RQ3与传统语音增强流水线（如Postfish+HRNR）及原始SEGAN相比，所提方法在客观与主观语音质量方面表现如何？
RQ4所提方法在多大程度上减少了增强语音中常见的音乐噪声伪影？
RQ5该方法在不同录音条件下（包括高环境噪声与混响）是否具备鲁棒性？

主要发现

在DR-VCTK数据集上，所提SEGAN模型的平均意见得分（MOS）为2.80，显著优于原始SEGAN（1.14），并与Postfish+HRNR组合（2.78）相当，p值为0.39691（无显著差异）。
在爱丁堡数据集上，所提方法的MOS得分为3.44，优于原始SEGAN（3.40）与Postfish+HRNR组合（3.29），p值为0.00011（具有统计显著性）。
主观评估证实，所提方法有效减少了传统增强方法中常见的音乐噪声伪影，提升了听者感知质量。
客观指标显示，与原始SEGAN相比，所提方法在DR-VCTK数据集上的PESQ（1.28 vs. 1.24）、SSNR（-1.72 vs. -1.09）和STOI（0.73 vs. 0.65）均有提升。
该模型在不同数据集上表现出鲁棒性与稳定性，无论在嘈杂环境（DR-VCTK）还是较安静环境（爱丁堡）中均保持一致的性能提升。
使用预增强参考信号进行初始训练，显著加快了收敛速度并提升了主观质量，验证了引导初始化可改善GAN在语音增强任务中的训练效果这一假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。