[论文解读] Recent Developments on ESPnet Toolkit Boosted by Conformer
本文在 ESPnet 内将 Conformer 架构扩展到 ASR、ST、SS 与 TTS,在多个人公用语料库上相对于 Transformer 展现出一致的提升,并提供可复现的配方与训练技巧。
In this study, we present recent developments on ESPnet: End-to-End Speech Processing toolkit, which mainly involves a recently proposed architecture called Conformer, Convolution-augmented Transformer. This paper shows the results for a wide range of end-to-end speech processing applications, such as automatic speech recognition (ASR), speech translations (ST), speech separation (SS) and text-to-speech (TTS). Our experiments reveal various training tips and significant performance benefits obtained with the Conformer on different tasks. These results are competitive or even outperform the current state-of-art Transformer models. We are preparing to release all-in-one recipes using open source and publicly available corpora for all the above tasks with pre-trained models. Our aim for this work is to contribute to our research community by reducing the burden of preparing state-of-the-art research environments usually requiring high resources.
研究动机与目标
- 将 Conformer 扩展到多样化的端到端语音任务(ASR、ST、SS、TTS)并与 Transformer 进行基准对比。
- 提供实用的训练指南(学习率、内核大小、架构)和可复现的配方。
- 在公开语料上提供训练良好的模型,以降低前沿研究的门槛。
提出的方法
- 描述 Conformer 编码器(Conformer 块,包含 MHSA、CONV、两个 FFN 和前规范化)。
- 使用 Transformer-XL 的相对位置编码。
- 应用 Macaron-Net 风格,采用半步 FFN,夹在 MHSA 与 CONV 之间,并使用带 dropout 的层规范化。
- 将 Conformer 编码器与 Transformer 解码器结合用于 ASR 与 ST 任务。
- 以联合 CTC-注意力目标进行训练,可选的 LM 重新评分。
- 在 25 份 ASR 语料、1 份 ST 语料、1 份 SS 语料以及 3 份 TTS 语料上进行评估,并进行广泛的消融分析。
实验结果
研究问题
- RQ1Conformer 是否在多样化的端到端语音任务和语料库上持续优于 Transformer?
- RQ2哪些训练技巧与架构选择能最大化 Conformer 在 ASR、ST、SS、TTS 的性能?
- RQ3基于 Conformer 的 CTC/Transducer 变体是否在没有解码器的情况下也有优势?
- RQ4在低资源与多说话者场景下,Conformer 的表现相较于 Transformer 如何?
- RQ5可复现的 ESPnet2 配方与预训练模型是否能加速社区的研究?
主要发现
- Conformer 在 14/17 个开源 ASR 语料库上优于 Transformer,并在若干数据集上达到最先进的结果。
- Conformer 相对于 Transformer 在 WSJ-2mix(多说话者)上实现约 7% 的相对提升。
- Conformer 在低资源语言中呈现显著提升(在 8 种语言上相对 Transformer 提升 15% 以上)。
- 纯 Conformer-CTC 与 Conformer-Transducer 变体相对于 Transformer 基线显示改进。
- 在语音翻译方面,Conformer 相较于 Transformer 在 Fisher-CallHome 西班牙语上 BLEU 提升约 10% 相对。
- 基于 Conformer 的 uPIT 的 SS 与基于 Conformer 的 TTS 相较于基于 Transformer 的系统显示稳定的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。