[論文レビュー] Timbre-Aware LLM-based Direct Speech-to-Speech Translation Extendable to Multiple Language Pairs
この論文は、広範な意味的整合データセット、3つの射影アーキテクチャ、および複数言語ペアにわたる音色制御付き合成を持つ、単一段階のLLM駆動直接S2ST翻訳フレームワークDS2ST-LMを提示します。
Direct Speech-to-Speech Translation (S2ST) has gained increasing attention for its ability to translate speech from one language to another, while reducing error propagation and latency inherent in traditional cascaded pipelines. However, existing direct S2ST systems continue to face notable challenges, including instability in semantic-acoustic alignment when parallel speech data is scarce, difficulty in preserving speaker identity, and limited multilingual scalability. In this work, we introduce DS2ST-LM, a scalable, single-stage direct S2ST framework leveraging a multilingual Large Language Model (LLM). The architecture integrates a Whisper speech encoder, a learnable projection module, a Qwen2-0.5B LLM, and a timbre-controlled vocoder. We construct GigaS2S-1000, a 1000-hour bilingual corpus by extending the GigaST dataset with high-fidelity synthetic target speech, and show that this synthetic data alleviates data scarcity to some extent. We investigate two semantic token generation strategies: speech-derived S3 tokens and text-derived tokens generated by a pre-trained LLM, and analyze their impact on training stability and semantic consistency. We further evaluate three projection architectures (Linear, Conv1D-Linear, and Q-Former) and observe that while higher-capacity projectors converge faster, the simple Linear projector achieves higher performance. Extensive experiments demonstrate that DS2ST-LM outperforms traditional cascaded and ST (Qwen-Audio) + TTS baselines across both lexical (BLEU, METEOR) and semantic (BLEURT, COMET) metrics, while extending to multiple language pairs, including French, Spanish, German, Hindi, Bengali, and Urdu. Furthermore, we incorporate timbre-aware speech synthesis to preserve speaker information, enabling DS2ST-LM to surpass prior direct S2ST systems in both speaker similarity and perceptual naturalness.
研究の動機と目的
- 希少な並列音声データによる意味–音響の整合性の不安定性に対処する。
- 複数の言語ペアで話者アイデンティティを翻訳時に維持する。
- LLMベースのデコーダと音色認識的ボコーダを用いた、スケーラブルで単段階の直接S2STを実現する。
- 研究を支援する大規模で意味的に整合したS2STデータを作成・公開する。
- トレーニングの安定性と翻訳品質のために、射影アーキテクチャと意味トークン生成戦略を評価する。
提案手法
- Whisper音声エンコーダ、学習可能な射影モジュール、Qwen 2-0.5B LLM、および話者プロンプトに条件付けられた音色制御ボコーダを単一段階DS2ST-LMフレームワークに統合する。
- XTTS-v2を用いて高忠実度合成中国語音声を含む1000時間の中国語–英語バイリンガルコーパスであるGigaS2S-1000を構築する。
- 訓練スキームとして、音声からの意味トークン生成(S3トークン)と事前学習済みLLMによるテキスト由来意味トークンを使用する。
- 三つの射影アーキテクチャ(Linear、Conv1D–Linear、Q-Former)を探索し、音声埋め込みをLLM空間へ写像して収束と翻訳品質を分析する。
- デコード時の音声とテキストトークンの比率を整列させる意味グループモデリングと、音声/テキストトークン損失の結合を用いる。
- 話者プロンプトに条件付けられた音色制御ニューラルボコーダを組み込み、ターゲット音声を音色を保ちながら合成する。
実験結果
リサーチクエスチョン
- RQ1DS2ST-LMは cascaded や ST+TTS ベースラインと比較して、複数言語ペアの直接S2STでどう性能を示すか。
- RQ2訓練安定性と翻訳品質に対する射影アーキテクチャ(Linear、Conv1D–Linear、Q-Former)の影響は何か。
- RQ3意味トークン生成戦略(音声由来S3対テキスト由来トークン)が意味的整合性とモデル安定性に与える影響は何か。
- RQ4音色認識的合成は直接S2STで翻訳品質を維持しつつ話者アイデンティティを保持できるか。
- RQ5合成データ(GigaS2S-1000)は言語間の直接S2ST訓練のデータ不足を緩和できるか。
主な発見
| Model / Datasets | Seamless-Align (zh–en) BLEU | Seamless-Align (zh–en) METEOR | Seamless-Align (zh–en) BLEURT | Seamless-Align (zh–en) COMET | GigaS2S-1000 (zh–en) BLEU | GigaS2S-1000 (zh–en) METEOR | GigaS2S-1000 (zh–en) BLEURT | GigaS2S-1000 (zh–en) COMET | FLEURS (zh–en) BLEU | FLEURS (zh–en) METEOR | FLEURS (zh–en) BLEURT | FLEURS (zh–en) COMET |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Cascaded | 4.78 | 0.25 | 0.30 | 0.34 | 6.84 | 0.16 | 0.37 | 0.39 | 5.78 | 0.23 | 0.36 | 0.38 |
| ST + TTS | 5.91 | 0.27 | 0.35 | 0.49 | 11.36 | 0.32 | 0.43 | 0.54 | 9.17 | 0.25 | 0.41 | 0.53 |
| DS2ST-LM | 7.11 | 0.37 | 0.42 | 0.58 | 14.71 | 0.45 | 0.53 | 0.71 | 11.46 | 0.45 | 0.53 | 0.68 |
- DS2ST-LMは複数データセットで語彙的・意味的指標において cascaded および ST+TTS ベースラインを上回る。
- Seamless-Align zh–enで、DS2ST-LMは BLEU (7.11) および BLEURT (0.42) でベースラインを上回る。
- GigaS2S-1000 zh–enで、DS2ST-LMは BLEU 14.71 および BLEURT 0.53 を達成し、ベースラインを上回る。
- FLEURS zh–enで、DS2ST-LMは BLEU 11.46 および BLEURT 0.53 を達成し、ベースラインを上回る。
- より大きな射影容量は収束を加速するが、この設定では線形射影が最高性能を示す。
- 音色認識的合成は、以前の直接S2STシステムと比較して話者類似度と知覚的自然さを改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。