[论文解读] Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion
引入一种语音引导的机器翻译(SMT)框架,将来自 TTS 模型的合成语音与文本输入融合到多模态大语言模型(MLLM),并通过自我进化机制迭代改进翻译,在 Multi30K 和 FLORES-200 上达到最新水平的结果。
Multimodal Large Language Models (MLLMs) have achieved notable success in enhancing translation performance by integrating multimodal information. However, existing research primarily focuses on image-guided methods, whose applicability is constrained by the scarcity of multilingual image-text pairs. The speech modality overcomes this limitation due to its natural alignment with text and the abundance of existing speech datasets, which enable scalable language coverage. In this paper, we propose a Speech-guided Machine Translation (SMT) framework that integrates speech and text as fused inputs into an MLLM to improve translation quality. To mitigate reliance on low-resource data, we introduce a Self-Evolution Mechanism. The core components of this framework include a text-to-speech model, responsible for generating synthetic speech, and an MLLM capable of classifying synthetic speech samples and iteratively optimizing itself using positive samples. Experimental results demonstrate that our framework surpasses all existing methods on the Multi30K multimodal machine translation benchmark, achieving new state-of-the-art results. Furthermore, on general machine translation datasets, particularly the FLORES-200, it achieves average state-of-the-art performance in 108 translation directions. Ablation studies on CoVoST-2 confirms that differences between synthetic and authentic speech have negligible impact on translation quality. The code and models are released at https://github.com/yxduir/LLM-SRT.
研究动机与目标
- 利用语音作为可扩展的多语模态,推动多模态翻译超越基于图像的方法。
- 提出将 TTS 生成器与 MLLM 集成的 Speech-guided Machine Translation 框架。
- 引入自我进化机制,自治地合成数据并迭代提升翻译质量。
- 分阶段对 MLLM 进行预训练(ASR、S2TT、SMT),以桥接语音与文本。
- 在多语言 MT 基准上展示在 28 种语言中的可扩展性和强大性能。
提出的方法
- 使用一个冻结的 Whisper 基于的语音编码器,并带有一个可训练的适配器(Q-Former + MLP)作为 MLLM 的输入路径。
- 采用三阶段的 MLLM 预训练管线:ASR、语音到文本翻译(S2TT)、以及语音引导的机器翻译(SMT)。
- 加入一个 TTS 模型(CosyVoice2)来生成与文本对齐的合成语音用于数据增强。
- 实现一个自我进化循环,包含经验获取、细化、更新和评估,以通过正样本(S2TT/SMT 分数)持续提升翻译质量。
- 在 Multi30K、FLORES-200 以及 WMT24++ 上用 BLEU、spBLEU、和 COMET 进行评估,并对 CoVoST-2 进行消融分析。
实验结果
研究问题
- RQ1当将语音模态与文本结合时,是否能提升多语言 MT 的性能,从而超越以图像为基础的方法?
- RQ2使用 TTS 生成的合成语音对训练和持续改进 SMT 的 MLLM 有多大帮助?
- RQ3真实语音与合成语音对翻译质量的影响如何?
- RQ4SMT 方法在多语言和方向上的可扩展性如何(28 种语言,108 个 FLORES-200 方向)?
主要发现
- SMT 框架在 Multi30K 上达到新的状态最佳结果,超越仅文本和基于图像的 MMT 模型。
- 在 FLORES-200 上,SMT 实现 108 个翻译方向的平均 MT 性能的状态最佳,优于更大规模的语言模型。
- 对 CoVoST-2 的消融显示真实语音与合成语音在翻译质量上几乎没有差异。
- 自我进化轮次对低资源语言(khm、lao、mya)带来显著提升,最显著的改进出现在早期轮次。
- 人工评估表明语音模态通过对齐注意力和提供韵律线索来减少漏译。
- SMT-9B 的参数量约为大型纯文本模型的 1/67 左右,仍能通过利用跨模态信息实现更优性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。