[論文レビュー] CVSS Corpus and Massively Multilingual Speech-to-Speech Translation
本論文はCVSSを紹介する。massively multilingual-to-English S2ST コーパスを21言語から英語へ提供し、2つの翻訳-音声フォーマット (CVSS-C と CVSS-T) を用意し、直接 S2ST と cascade ベースラインを評価し、CoVoST 2 を用いた事前学習の知見を示します。
We introduce CVSS, a massively multilingual-to-English speech-to-speech translation (S2ST) corpus, covering sentence-level parallel S2ST pairs from 21 languages into English. CVSS is derived from the Common Voice speech corpus and the CoVoST 2 speech-to-text translation (ST) corpus, by synthesizing the translation text from CoVoST 2 into speech using state-of-the-art TTS systems. Two versions of translation speeches are provided: 1) CVSS-C: All the translation speeches are in a single high-quality canonical voice; 2) CVSS-T: The translation speeches are in voices transferred from the corresponding source speeches. In addition, CVSS provides normalized translation text which matches the pronunciation in the translation speech. On each version of CVSS, we built baseline multilingual direct S2ST models and cascade S2ST models, verifying the effectiveness of the corpus. To build strong cascade S2ST baselines, we trained an ST model on CoVoST 2, which outperforms the previous state-of-the-art trained on the corpus without extra data by 5.8 BLEU. Nevertheless, the performance of the direct S2ST models approaches the strong cascade baselines when trained from scratch, and with only 0.1 or 0.7 BLEU difference on ASR transcribed translation when initialized from matching ST models.
研究の動機と目的
- publicly available, large-scale multilingual speech-to-speech corpus derived from Common Voice and CoVoST 2 を用いて S2ST 研究を促進する。
- 二つの翻訳-音声フォーマットを提供する (CVSS-C: canonical voice; CVSS-T: voice cloned to source speaker) と accompanying normalized translations.
- CVSS 上で基準となる多言語 direct S2ST モデルと cascade S2ST ベースラインを確立し、データ品質とモデル性能を評価する。
- CoVoST 2 での事前学習が cascade S2ST の性能向上に寄与するかを示し、直接 S2ST と比較する。
- 多言語データを用いた S2ST の direct と cascade アプローチのトレードオフに関する洞察を提供する。
提案手法
- CoVoST 2 の translations を英語音声に合成する二つの TTS モデル (PnG NAT とその voice-cloning variant) を用いて CVSS を構築する。
- CVSS の二つのバリアントを提供する: CVSS-C (単一の canonical voice) および CVSS-T (ソース発話から声を転送した音声)。
- Baseline の direct S2ST モデル (Translatotron, Translatotron 2) と CVSS 上の cascade S2ST モデルを訓練する(ST の事前学習には CoVoST 2 を使用)。
- 翻訳品質を翻訳音声の ASR 転写に対する BLEU で評価し、自然さと話者類似性の MOS 評価で音声品質を評価する。
- CoVoST 2 の ASR/ST 事前学習を探索し cascade ベースラインを改善し、直接 S2ST への影響を評価する。
実験結果
リサーチクエスチョン
- RQ1公開されている massively multilingual S2ST コーパス は 21 言語から英語への直接 S2ST モデリングを効果的に可能にするか。
- RQ2CVSS-C と CVSS-T における direct S2ST と cascade S2ST の比較性能はどうか、声のクローン化と正規化は結果にどう影響するか。
- RQ3CoVoST 2 での事前学習は cascade S2ST を改善し、直接 S2ST を cascade ベースラインに近づけるか。
- RQ4翻訳-音声データセット ( canonical vs. voice-cloned ) は S2ST の naturalness、 intelligibility、話者 preserve にどう影響するか。
- RQ5En をターゲット言語ディレクションとして超えた将来の拡張に対してどんな洞察が得られるか。
主な発見
- CVSS-C direct S2ST (Translatotron 2) は cascade ベースラインに匹敵する高い naturalness を達成し、翻訳品質 (BLEU) は一致する ST モデルから初期化された場合に cascade に近づく;ただし場合によっては cascade モデルがわずかに高い。
- CVSS-T direct S2ST の MOS naturalness および speaker similarity は CVSS-C より低いが、それでも翻訳音声は聴取可能で、話者の保持能力は顕著である;ASR BLEU は翻訳品質の競争力を示す。
- CoVoST 2 ST データで訓練した cascade S2ST ベースラインは、全21言語ペアで以前の最先端 ST ベースラインより 5.8 BLEU(4つの高資源ペアで 6.9 BLEU)上回る。
- ASR 事前学習は cascade S2ST の性能を向上させる; ST 事前学習も direct S2ST に利益をもたらし、Translatotron 2 の結果を cascade ベースラインに非常に近づける(平均で約 0.1–0.7 BLEU の差)。
- CVSS-C の翻訳音声は MOS が高く(Naturalness ≈ 4.6、Similarity ≈ 3.8)、MOS ≈ 4.63 を目標として自然 Speech ベンチマークと強く整合する。
- CVSS-T は自然さの MOS は競争力があり、cross-language voice transfer にもかかわらず d-vector の話者類似性は高い(0.65)、ただし参照音声の質により自然さが影響を受け得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。