[论文解读] End-to-End Speech Translation with Knowledge Distillation
该论文介绍从文本翻译教师到端到端语音翻译学生的知识蒸馏,在英语–法语和英语–中文翻译任务中显示出显著的 BLEU 提升,并在近乎流水线的性能上。
End-to-end speech translation (ST), which directly translates from source language speech into target language text, has attracted intensive attentions in recent years. Compared to conventional pipeline systems, end-to-end ST models have advantages of lower latency, smaller model size and less error propagation. However, the combination of speech recognition and text translation in one model is more difficult than each of these two tasks. In this paper, we propose a knowledge distillation approach to improve ST model by transferring the knowledge from text translation model. Specifically, we first train a text translation model, regarded as a teacher model, and then ST model is trained to learn output probabilities from teacher model through knowledge distillation. Experiments on English- French Augmented LibriSpeech and English-Chinese TED corpus show that end-to-end ST is possible to implement on both similar and dissimilar language pairs. In addition, with the instruction of teacher model, end-to-end ST model can gain significant improvements by over 3.5 BLEU points.
研究动机与目标
- 将端到端语音翻译 (ST) 作为对流水线系统的紧凑型、低延迟替代方案来进行动机说明。
- 提出一个知识蒸馏框架,其中一个文本 MT 模型充当教师来引导 ST 学生。
- 证明通过蒸馏利用 MT 知识可以在相似与不同语言对上提升 ST 性能。
- 展示 KD 使端到端 ST 模型在现有基准上缩小与流水线系统的差距。
提出的方法
- 在 ASR/ST 和 MT 任务中使用基于 Transformer 的架构,采用共享的编码器-解码器框架。
- 在平行文本上训练文本翻译模型(教师),在语音到文本翻译上训练端到端 ST 模型(学生)。
- 通过最小化组合损失来应用知识蒸馏:L_ALL = (1-λ)L_ST + λL_KD,其中 L_KD 使学生输出与教师分布对齐。
- 将 L_KD 计算为教师输出分布 Q(y_t|y_<t,x) 与学生预测分布 P(y_t|y_<t,s) 之间的交叉熵。
- 对语音输入使用带帧堆叠的对数梅尔特征并进行下采样;对 MT/ST 输出应用子词单元(BPE)。
- 在 Augmented LibriSpeech(英文–法语)和 TED(英文–中文)上进行评估,以展示跨语言对的普适性。
实验结果
研究问题
- RQ1是否可以在更高资源的文本 MT 模型的知识蒸馏指导下有效训练端到端 ST?
- RQ2KD 能在多大程度上提升端到端 ST 的性能并缩小与传统流水线系统的差距?
- RQ3教师信号是否同样有助于不同语言对(英语–中文)以及相似语言对(英语–法语)?
主要发现
- 端到端 ST 结合 KD 在 Augmented LibriSpeech 上显著提升 BLEU 分数,相比基础端到端 ST 在某些设置中提升约 2.7 的 BLEU 点数。
- KD 使端到端 ST 模型接近流水线性能,缩小端到端 ST 与 MT+ST 流水线之间的性能差距。
- 在英语–法语上,带 KD 的端到端 ST 表现优于无 KD 的变体,BLEU 分数更接近流水线基线。
- 在英语–中文上,端到端 ST 受益于 KD,相对于无 KD 的变体有明显提升,表明该方法对语言对具有普遍性。
- 注意力可视化表明 KD 使 ST 的注意力更加聚焦,类似于 MT 的注意力,并有助于与输入帧的对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。