[论文解读] Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling
本文提出Dual-mode ASR,一种统一的端到端框架,通过共享权重训练单一模型以同时支持流式和全上下文自动语音识别。通过在训练过程中利用全上下文模式对流式推理进行就地知识蒸馏,该方法在LibriSpeech和MultiDomain数据集上实现了更低延迟和更高准确率的最先进性能。
Streaming automatic speech recognition (ASR) aims to emit each hypothesized word as quickly and accurately as possible, while full-context ASR waits for the completion of a full speech utterance before emitting completed hypotheses. In this work, we propose a unified framework, Dual-mode ASR, to train a single end-to-end ASR model with shared weights for both streaming and full-context speech recognition. We show that the latency and accuracy of streaming ASR significantly benefit from weight sharing and joint training of full-context ASR, especially with inplace knowledge distillation during the training. The Dual-mode ASR framework can be applied to recent state-of-the-art convolution-based and transformer-based ASR networks. We present extensive experiments with two state-of-the-art ASR networks, ContextNet and Conformer, on two datasets, a widely used public dataset LibriSpeech and a large-scale dataset MultiDomain. Experiments and ablation studies demonstrate that Dual-mode ASR not only simplifies the workflow of training and deploying streaming and full-context ASR models, but also significantly improves both emission latency and recognition accuracy of streaming ASR. With Dual-mode ASR, we achieve new state-of-the-art streaming ASR results on both LibriSpeech and MultiDomain in terms of accuracy and latency.
研究动机与目标
- 将流式与全上下文 ASR 统一到一个共享参数的模型中,以简化部署并减小模型尺寸。
- 通过在训练过程中联合优化全上下文建模,提升流式 ASR 性能。
- 通过来自全上下文模式的就地知识蒸馏,提升流式 ASR 的延迟与准确率,且无需引入额外参数。
- 在多种架构(ContextNet、Conformer)和数据集(LibriSpeech、MultiDomain)上验证该框架的有效性。
提出的方法
- 提出 Dual-mode 编码器,使用相同权重同时支持流式(自回归,无未来上下文)和全上下文(双向,完整输入上下文)推理。
- 设计双模式层,包括因果卷积、池化和自注意力机制,其行为根据模式动态切换。
- 在同一个模型中联合训练流式与全上下文模式,共享梯度与参数。
- 引入就地知识蒸馏,使全上下文模式作为教师指导流式模式训练,通过强制对齐 token 概率预测来实现。
- 采用标准训练方案:Adam 优化器、SpecAugment 数据增强,以及带有预热的 Transformer 学习率调度策略,适用于两种模式。
- 对两种模式使用相同的训练目标和解码策略,确保端到端对齐与性能一致性。
实验结果
研究问题
- RQ1一个单一的端到端 ASR 模型能否通过共享权重有效支持流式与全上下文推理?
- RQ2与全上下文建模联合训练是否能提升流式 ASR 的延迟与准确率?
- RQ3从全上下文模式到流式模式的就地知识蒸馏在提升流式性能方面有多有效?
- RQ4权重共享与联合训练对流式 ASR 表征学习有何影响?
主要发现
- Dual-mode ASR 在 LibriSpeech TestOther 上实现了 8.5% 的流式 WER,优于包括基于 LSTM 的转换器和 Transformer-Transducer 在内的基线模型。
- 与无知识蒸馏的联合训练相比,采用就地蒸馏后,延迟@50 从 120ms 降低至 40ms,延迟@90 从 310ms 降低至 160ms。
- 联合训练结合蒸馏使流式 WER 相较于无蒸馏训练降低 1.7 个百分点,同时在第 50 百分位延迟减少 80ms。
- 即使不使用蒸馏,权重共享与联合训练也优于独立训练,表明共享表征学习可提升模型质量。
- 消融实验表明,就地知识蒸馏对实现低延迟与高准确率至关重要,其性能优于独立训练加蒸馏的设置。
- 该框架在 LibriSpeech 与 MultiDomain 数据集上均实现了新的最先进性能,兼顾准确率与延迟,展现出在不同架构与数据集上的良好泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。