[论文解读] CVSS Corpus and Massively Multilingual Speech-to-Speech Translation
本论文介绍 CVSS—a 一个将大规模多语言到英语的 S2ST 语料库,覆盖 21 种源语言,提供两种翻译-语音格式(CVSS-C 和 CVSS-T),并比较直接 S2ST 与级联基线,同时给出使用 CoVoST 2 的预训练结果。
We introduce CVSS, a massively multilingual-to-English speech-to-speech translation (S2ST) corpus, covering sentence-level parallel S2ST pairs from 21 languages into English. CVSS is derived from the Common Voice speech corpus and the CoVoST 2 speech-to-text translation (ST) corpus, by synthesizing the translation text from CoVoST 2 into speech using state-of-the-art TTS systems. Two versions of translation speeches are provided: 1) CVSS-C: All the translation speeches are in a single high-quality canonical voice; 2) CVSS-T: The translation speeches are in voices transferred from the corresponding source speeches. In addition, CVSS provides normalized translation text which matches the pronunciation in the translation speech. On each version of CVSS, we built baseline multilingual direct S2ST models and cascade S2ST models, verifying the effectiveness of the corpus. To build strong cascade S2ST baselines, we trained an ST model on CoVoST 2, which outperforms the previous state-of-the-art trained on the corpus without extra data by 5.8 BLEU. Nevertheless, the performance of the direct S2ST models approaches the strong cascade baselines when trained from scratch, and with only 0.1 or 0.7 BLEU difference on ASR transcribed translation when initialized from matching ST models.
研究动机与目标
- 用公开可得、规模巨大的多语言语音到语音语料库(来自 Common Voice 与 CoVoST 2)来推动 S2ST 研究的动机与应用
- 提供两种翻译-语音格式(CVSS-C:规范语音;CVSS-T:从源说话人克隆的语音)及相应的归一化翻译
- 在 CVSS 上建立多语言直接 S2ST 模型与级联 S2ST 基线,以评估数据质量和模型性能
- 展示在 CoVoST 2 上的预训练对提升级联 S2ST 性能的好处,并与直接 S2ST 进行比较
- 为多语言数据下直接与级联方法的权衡提供见解
提出的方法
- 通过使用两种 TTS 模型(PnG NAT 及其语音克隆变体)将 CoVoST 2 的翻译合成英文语音来构建 CVSS
- 提供两种 CVSS 变体:CVSS-C(单一规范语音)和 CVSS-T(从源语音转移的语音)
- 在 CVSS(以及对 ST 进行预训练的 CoVoST 2)上训练基线直接 S2ST 模型(Translatotron、Translatotron 2)与一个级联 ST→TTS 模型
- 通过对翻译语音的 ASR 转录进行 BLEU 来评估翻译质量,并通过 MOS 评估自然度与说话人相似度来评估语音质量
- 在 CoVoST 2 的 ST 预训练下探索 ASR/ST 预训练以提升级联基线,并评估对直接 S2ST 的影响
实验结果
研究问题
- RQ1公开可用的、极大规模的多语言 S2ST 语料库是否能够在 21 种语言到英语的直接 S2ST 建模中发挥有效作用?
- RQ2直接 S2ST 与级联 S2ST 在 CVSS-C 与 CVSS-T 的相对表现如何,语音克隆与归一化对结果有何影响?
- RQ3在 CoVoST 2 上的预训练是否能改善级联 S2ST,并且能否使直接 S2ST更接近级联基线?
- RQ4翻译-语音数据集(标准语音 vs. 语音克隆)如何影响 S2ST 的自然度、可懂度和说话人保留?
- RQ5未来扩展到以英语以外的目标语言方向时,有哪些可获得的见解?
主要发现
- CVSS-C 直接 S2ST(Translatotron 2)在自然度方面与级联基线相当,翻译质量(BLEU)在匹配 ST 模型初始化时接近级联,但在某些情况下级联仍略高
- CVSS-T 直接 S2ST 的 MOS 自然度与说话人相似度低于 CVSS-C,但仍显示出可理解的翻译语音与显著的说话人保留能力;ASR BLEU 指示翻译质量具竞争力
- 在 CoVoST 2 ST 数据上训练的级联 S2ST 基线在所有 21 对语言上超越了之前的 ST 基线,提升约 5.8 BLEU(4 个高资源对中达到 6.9 BLEU)
- ASR 预训练提升了级联 S2ST 的性能;ST 预训练也有利于直接 S2ST,使 Translatotron 2 的结果非常接近级联基线(平均差异大致在 0.1–0.7 BLEU)
- CVSS-C 翻译语音获得较高的 MOS 分数(自然度约 4.6,相似度约 3.8),目标 MOS 约为 4.63,显示与自然语音基准的良好对齐
- CVSS-T 展现出在自然度方面具有竞争力的 MOS,同时具备强烈的 d-vector 说话人相似度(0.65),尽管跨语言语音转移可能影响自然度
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。