[論文レビュー] Cross-Modal Robustness Transfer (CMRT): Training Robust Speech Translation Models Using Adversarial Text
CMRTは end-to-end 音声翻訳(E2E-ST)における adversarial robustness をテキストから音声へ転送し、音声/テキスト潜在空間を揃えることで、 adversarial 音声データを用いずに adversarial 音声上のBLEUを3点以上改善します。
End-to-End Speech Translation (E2E-ST) has seen significant advancements, yet current models are primarily benchmarked on curated, "clean" datasets. This overlooks critical real-world challenges, such as morphological robustness to inflectional variations common in non-native or dialectal speech. In this work, we adapt a text-based adversarial attack targeting inflectional morphology to the speech domain and demonstrate that state-of-the-art E2E-ST models are highly vulnerable it. While adversarial training effectively mitigates such risks in text-based tasks, generating high-quality adversarial speech data remains computationally expensive and technically challenging. To address this, we propose Cross-Modal Robustness Transfer (CMRT), a framework that transfers adversarial robustness from the text modality to the speech modality. Our method eliminates the requirement for adversarial speech data during training. Extensive experiments across four language pairs demonstrate that CMRT improves adversarial robustness by an average of more than 3 BLEU points, establishing a new baseline for robust E2E-ST without the overhead of generating adversarial speech.
研究の動機と目的
- E2E-ST における頑健性を屈折形態素・非母語話者の音声に対して動機づける。
- テキストから音声への adversarial robustness 転送を実現する Cross-Modal Robustness Transfer フレームワークを提案する。
- 音声とテキストの表現を揃え、モダリティ間の頑健性転送を可能にする。
- adversarial 音声データを必要としないテキストのみの adversarial 微調整ステージを提供する。
提案手法
- Two-stage CMRT training: CMRT-TR は WACO (word-aligned contrastive learning) と Mixup を用いて強い音声-テキスト意味的整合を構築する。
- CMRT-TR は ST および MT 目的とコントラスト学習を最適化し、モダリティを整列させる。混合性の互換性のために対称的 KL 発散項を導入する。
- CMRT-FN は音声マニフォールドへ敵対的なテキスト埋め込みを注入した adversarial mixup でモデルを微調整し、出力をクリーン入力と adversarial 入力に整列させるために非対称 KL を使用する。
- Speech-MORPHEUS (Speech-MORPHEUS) は MORPHEUS を音声へ拡張し、TTS ベースの音声入力による屈折 Perturbation を生成して頑健性評価に用いる。
- アーキテクチャには音声エンコーダ(HuBERT/mHuBERT)と翻訳エンコーダ-デコーダが含まれ、MT と ST 損失で訓練し、クロスモーダル目的で強化される。
- 最終目的は ST 損失、MT 損失、CTR 損失、 adversarial mixup 損失、KL 正則化項(λ_ctr、λ_kl)を組み合わせたものとなる。

実験結果
リサーチクエスチョン
- RQ1頑健な音声翻訳モデルを adversarial 音声データを生成せずに屈折 perturbation に耐性を持つよう訓練できるか?
- RQ2音声とテキストの埋め込みを揃えることでテキストベースの adversarial robustness の音声モダリティへの効果的な転送を可能にするか?
- RQ3WACO と Mixup の組み合わせがクロスモーダル整列と頑健性に与える影響は?
主な発見
- CMRT-FN は En-De, En-Ca, En-Ar, Fr-En の adversarial MORPHEUS 攻撃音声上で平均的な頑健性を 3 BLEU 点以上改善した。
- CMRT-FN は adversarial 音声データを使用しないベースラインを上回り、合成 adversarial 音声 で訓練された方法と競合する。
- CMRT-FN はクリーンな CoVoST 2 テストデータでの性能を維持(時には改善)しつつ、頑健性の向上を達成した。一部の adversarial 微調整アプローチよりも優れた頑健性を示す。
- より強い音声-テキスト潜在空間整列(コサイン類似度と BLEU との相関で測定)が、より良い adversarial robustness と相関する。
- Mixup と WACO はいずれか単独よりも優れた意味的整合を提供し、頑健性転送をより効果的に促進する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。