[论文解读] Sequence-to-Sequence Models Can Directly Translate Foreign Speech
一个端到端的序列到序列模型直接将一种语言的语音翻译成另一种语言的文本,无需源语言转写,优于级联的 ASR+MT 系统;与 ASR 进行多任务训练还能进一步提升性能。
We present a recurrent encoder-decoder deep neural network architecture that directly translates speech in one language into text in another. The model does not explicitly transcribe the speech into text in the source language, nor does it require supervision from the ground truth source language transcription during training. We apply a slightly modified sequence-to-sequence with attention architecture that has previously been used for speech recognition and show that it can be repurposed for this more complex task, illustrating the power of attention-based models. A single model trained end-to-end obtains state-of-the-art performance on the Fisher Callhome Spanish-English speech translation task, outperforming a cascade of independently trained sequence-to-sequence speech recognition and machine translation models by 1.8 BLEU points on the Fisher test set. In addition, we find that making use of the training data in both languages by multi-task training sequence-to-sequence speech translation and recognition models with a shared encoder network can improve performance by a further 1.4 BLEU points.
研究动机与目标
- 激励端到端语音翻译,避免级联(ASR+MT)中的错误累积。
- 证明一个带注意力的单一序列到序列模型可以将一种语言的音频翻译为另一种语言的文本,而无需源语言转写。
- 通过与 ASR/MT 任务共享编码器来探索多任务训练对提高翻译质量的影响。
- 表明端到端 ST 在 Fisher Callhome 西班牙语–英语翻译任务上达到或超过当前最佳 BLEU。
提出的方法
- 使用带注意力的序列到序列模型,采用编码器–解码器架构和注意力机制,将输入语音帧与输出文本标记对齐。
- 使用对数梅尔滤波器组特征经卷积和双向 LSTM 编码器处理,生成 h1..L 表示。
- 使用多层 LSTM 解码器,在注意力衍生的上下文向量 c_k 的引导下解码,生成输出标记 y_k。
- 在多任务设置中对端到端的语音翻译和带共享编码器的 ASR 进行训练,以提高 ST 性能。
- 后端训练使用教师强制、适应性优化(Adam)、梯度噪声,以及不依赖外部语言模型的束搜索解码。
实验结果
研究问题
- RQ1在训练过程中,端到端的序列到序列模型是否能将外语语音直接翻译成目标语言文本,而无需源语言转写?
- RQ2在语音翻译和识别任务之间共享编码器是否能提高翻译准确性?
- RQ3端到端 ST 与 ASR-再经 MT 的级联系统在 Fisher Callhome 西班牙语–英语数据上有何不同?
- RQ4解码器深度和多任务训练对 ST 性能有何影响?
- RQ5训练策略(一对多 vs 多对一)对多任务 ST/ASR 有何影响?
主要发现
- 端到端语音翻译在 Fisher/测试集上约比 ASR→NMT 级联高出1.8 BLEU点。
- 在 Fisher 数据集上,带共享编码器的多任务 ST/ASR 再提升大约 1.4 BLEU 点。
- 将解码器深度增加到四层可提升 Fisher/dev 上的 ST 性能(BLEU),超过此深度收益递减。
- 在多任务设置中共享所有编码器层可获得最佳 ST 性能,表明编码器学到了一种中间语言表示。
- 端到端 ST 模型在 Fisher dev/test 上实现 46.5–47.3 BLEU,在 Callhome devtest/evaltest 上实现 16.4–16.6 BLEU,优于 Fisher 之前的级联方法;但在 Callhome 上相对于词级 MT 基线表现稍差,原因是数据规模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。