[论文解读] RNN-T For Latency Controlled ASR With Improved Beam Search
论文提出了带延迟控制的 RNN-T ASR,使用 LC-BLSTM 编码器并改进的束搜索以加速解码,在 WER 上与混合基线相当,同时具有更高的吞吐量和更低的 rtf@40。
Neural transducer-based systems such as RNN Transducers (RNN-T) for automatic speech recognition (ASR) blend the individual components of a traditional hybrid ASR systems (acoustic model, language model, punctuation model, inverse text normalization) into one single model. This greatly simplifies training and inference and hence makes RNN-T a desirable choice for ASR systems. In this work, we investigate use of RNN-T in applications that require a tune-able latency budget during inference time. We also improved the decoding speed of the originally proposed RNN-T beam search algorithm. We evaluated our proposed system on English videos ASR dataset and show that neural RNN-T models can achieve comparable WER and better computational efficiency compared to a well tuned hybrid ASR baseline.
研究动机与目标
- 研究具有可调延迟约束的流式 ASR 的 RNN-T。
- 将延迟控制的 LC-BLSTM 集成到 RNN-T 编码器,以在流式约束下提高质量。
- 改进 RNN-T 的束搜索以提升解码速度和效率。
- 在真实世界数据上将端到端 RNN-T 与调优良好的混合型 ASR 基线进行比较。
- 通过在推理阶段配置解码阈值来展示延迟-吞吐的权衡。
提出的方法
- 使用带有右上下文和分块重叠处理的 LC-BLSTM 作为音频编码器,以实现延迟控制。
- 采用改进的 RNN-T 束搜索,使用 state_beam 和 expand_beam 超参数来高效地裁剪候选。
- 端到端训练模型,不使用外部语言模型。
- 将推理量化为 INT8 以加速解码。
- 在英文视频数据集上评估可配置解码阈值(DT),以研究延迟与 WER 的关系。
- 与使用外部 WFST LM 的混合型 ASR 基线进行比较。
实验结果
研究问题
- RQ1带 LC-BLSTM 的 RNN-T 能否在保持有竞争力的 WER 的同时实现可控延迟的流式 ASR?
- RQ2所提出的束搜索改进(state_beam 与 expand_beam)是否在不影响准确性的前提下提高吞吐量?
- RQ3调整解码阈值(DT)对延迟、吞吐量和 WER 有何影响?
- RQ4在视频数据上,端到端 RNN-T 与经调优的混合式 ASR 在 WER 与效率方面有何比较?
主要发现
- 通过 expand_beam=2.3 和 state_beam=4.6 的设置,吞吐量从 53 提高到 65,且 rtf@40 从 0.75 降至 0.60(对 WER 的影响可以忽略)。
- 在 vid-clean 上,采用 LC-BLSTM 的 RNN-T 实现了与混合基线相当的 WER,同时在吞吐量方面提供更高的性能(63 对 55),在 vid-noisy 上为 65 对 55,且设置相同。
- RNN-T 模型(约 65 MB)比混合基线要小十余倍以上,简化了训练和部署,因为去除了外部 LM/ITN 组件。
- DT 控制的推理在延迟与吞吐量与 WER 之间进行权衡;较大的 DT 提升 WER 但降低延迟;较小的 DT 降低吞吐量并提高 WER(示例适用于 vid-noisy 和 vid-clean)。
- 单向 LSTM 编码器单独使用时相较 LC-BLSTM 会降低 WER,但仍然可以流式处理,表明通过 DT 实现延迟控制是一种可行策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。