QUICK REVIEW

[论文解读] Harnessing Indirect Training Data for End-to-End Automatic Speech Translation: Tricks of the Trade

Juan Pino, Liezl Puzon|arXiv (Cornell University)|Sep 14, 2019

Natural Language Processing Techniques被引用 25

一句话总结

本文通过数据增强和预训练，利用间接训练数据（如ASR转录本和MT翻译）来缩小端到端自动语音翻译（AST）模型与强基线级联模型之间的性能差距。通过翻译ASR转录本并使用TTS生成合成语音，结合预训练与微调，作者在LibriSpeech数据集上将BLEU差距从8.2降至1.4，在MuST-C数据集上从6.7降至3.7，实现了公共数据集上的接近最先进性能。

ABSTRACT

For automatic speech translation (AST), end-to-end approaches are outperformed by cascaded models that transcribe with automatic speech recognition (ASR), then translate with machine translation (MT). A major cause of the performance gap is that, while existing AST corpora are small, massive datasets exist for both the ASR and MT subsystems. In this work, we evaluate several data augmentation and pretraining approaches for AST, by comparing all on the same datasets. Simple data augmentation by translating ASR transcripts proves most effective on the English--French augmented LibriSpeech dataset, closing the performance gap from 8.2 to 1.4 BLEU, compared to a very strong cascade that could directly utilize copious ASR and MT data. The same end-to-end approach plus fine-tuning closes the gap on the English--Romanian MuST-C dataset from 6.7 to 3.7 BLEU. In addition to these results, we present practical recommendations for augmentation and pretraining approaches. Finally, we decrease the performance gap to 0.01 BLEU using a Transformer-based architecture.

研究动机与目标

缩小端到端AST模型与利用大规模ASR和MT数据集的强基线级联模型之间的性能差距。
研究使用ASR转录本和MT翻译等间接训练数据的有效数据增强策略。
评估在域外合成数据上对语音编码器进行预训练及微调的影响。
对多种神经架构（包括一种新型VGG Transformer改进）进行端到端AST的基准测试。
为在端到端AST中有效利用间接数据提供实用且可复现的建议。

提出的方法

使用高质量的MT模型将大规模ASR语料库中的ASR转录本翻译，以增强AST训练数据。
利用文本到语音（TTS）合成技术，从源语言侧的MT平行数据生成合成语音，以创建更多训练样本。
在微调至AST任务前，使用大规模ASR数据对端到端AST模型的语音编码器进行预训练。
当使用大量域外合成数据时，通过微调使模型适应域内AST数据。
使用多种TTS引擎和说话人配置，以评估合成数据的质量、多样性与鲁棒性。
在公开的AST数据集上对多种架构（包括扩展的Bérard模型、VGG-LSTM和VGG Transformer）进行基准测试。

实验结果

研究问题

RQ1将ASR转录本翻译作为端到端AST的数据增强技术有多有效？
RQ2TTS生成的合成语音对AST性能有何影响？数据量、说话人多样性及TTS质量如何影响结果？
RQ3在ASR数据上对语音编码器进行预训练能否提升端到端AST性能？
RQ4微调在缓解域外合成数据导致的性能下降方面有多有效？
RQ5在结合数据增强与预训练的公共AST数据集上，哪些模型架构表现最佳？

主要发现

仅通过翻译ASR转录本，端到端模型与级联模型在英语-法语LibriSpeech数据集上的BLEU差距从8.2降至1.4。
在英语-罗马尼亚语MuST-C数据集上，采用相同的转录本翻译增强方法，性能差距从6.7降至3.7 BLEU。
增加最多30万条TTS生成的语音样本可提升性能，但100万条样本反而导致性能下降，表明存在领域偏移问题。
使用多说话人TTS生成的合成数据比单说话人生成高出+0.9 BLEU，且与最佳单说话人性能相当。
TTS2引擎略优于TTS1，且从目标语言（法语）文本生成语音的效果最佳（BLEU 13.646），表明类似回译策略具有潜力。
通过完整流程优化——包括数据增强、预训练、微调及Transformer架构，LibriSpeech数据集上的性能差距已缩小至仅0.01 BLEU。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。