[论文解读] Fast offline Transformer-based end-to-end automatic speech recognition for real-world applications
本论文通过采用多 utterance 批处理束搜索、基于 CTC 的语音结束检测、时间受限的 CTC 前缀评分,以及通过 DNN-VAD 或硬分割实现的语音分割,提出了一种快速、高效的离线 Transformer 基端到端自动语音识别(ASR)系统,适用于真实世界应用。该系统仅使用两张 GPU 卡,在不到 3 分钟内完成 8 小时真实会议语音的转录,字符错误率(CER)为 10.73%,相较于传统 DNN-HMM 系统实现了 27.1% 的相对性能提升。
With the recent advances in technology, automatic speech recognition (ASR) has been widely used in real-world applications. The efficiency of converting large amounts of speech into text accurately with limited resources has become more important than ever. This paper proposes a method to rapidly recognize a large speech database via a Transformer-based end-to-end model. Transformers have improved the state-of-the-art performance in many fields. However, they are not easy to use for long sequences. In this paper, various techniques to speed up the recognition of real-world speeches are proposed and tested, including decoding via multiple-utterance batched beam search, detecting end-of-speech based on a connectionist temporal classification (CTC), restricting the CTC prefix score, and splitting long speeches into short segments. Experiments are conducted with the Librispeech English and the real-world Korean ASR tasks to verify the proposed methods. From the experiments, the proposed system can convert 8 hours of speeches spoken at real-world meetings into text in less than 3 minutes with a 10.73% character error rate, which is 27.1% relatively lower than that of conventional systems.
研究动机与目标
- 在计算资源有限的条件下,加速大规模真实世界语音数据库的离线端到端语音识别。
- 解决 Transformer 在处理长语音序列时因计算成本高和顺序处理瓶颈导致的效率低下问题。
- 在保持高识别准确率的前提下,提升真实会议转录场景下的解码速度和 GPU 利用率。
- 评估并比较不同分割策略——DNN-VAD 和硬分割——在长语音序列端到端 ASR 中的表现。
- 降低 CTC 前缀评分的计算开销,通过时间受限的 CPU 处理实现更快的推理速度。
提出的方法
- 采用多 utterance、多假设的批处理束搜索,提升 GPU 并行化程度,加速多个 utterance 的解码过程。
- 提出基于 CTC 的语音结束检测机制,实现解码的提前终止,尤其在噪声较大或语音稀疏的 utterance 中效益显著。
- 通过限制每步解码时检查的时间范围,引入时间受限的 CTC 前缀评分,降低计算复杂度。
- 应用基于 DNN 的语音活动检测(VAD)在自然停顿处对长 utterance 进行分割,相比随机分割可提升识别准确率。
- 实现硬分割作为轻量级替代方案,将长 utterance 均匀划分为指定长度范围内的段落(15–20 秒或 19–20 秒)。
- 将批处理束搜索与分割后的输入结合,以最大化 GPU 显存利用率并保持稳定的推理速度。
实验结果
研究问题
- RQ1多 utterance 批处理束搜索是否能显著提升 Transformer 基 ASR 的解码吞吐量?
- RQ2在训练与测试条件不匹配的情况下,基于 CTC 的语音结束检测在减少解码时间方面的有效性如何?
- RQ3时间受限的 CTC 前缀评分在不降低识别准确率的前提下,能在多大程度上降低计算负载?
- RQ4在长语音处理中,DNN-VAD 与硬分割在识别准确率和计算成本方面有何对比?
- RQ5所提出的流水线能否在计算资源受限条件下,实现高速、低资源消耗的真实会议录音转录,并达到最先进水平的准确率?
主要发现
- 所提出的系统仅使用两张 GPU 卡,在不到 3 分钟内完成 8 小时真实世界会议语音的文本转录。
- 该系统在韩语会议数据集上实现了 10.73% 的字符错误率(CER),相较于传统 DNN-HMM 系统相对降低了 27.1%。
- 基于 DNN-VAD 的分割方式识别准确率高于硬分割,因其在自然语义边界处进行分割,有效减少了词边界错误。
- 尽管准确率较低,硬分割无需额外计算开销,在商业规模部署中更受青睐,因其资源消耗更低。
- 批处理束搜索与分割输入的结合,使系统在有限 GPU 显存约束下实现了稳定且高吞吐量的推理。
- 时间受限的 CTC 前缀评分通过限制每步解码时检查的时间范围,降低了计算复杂度,从而实现了更快的推理速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。