[论文解读] Semi-Supervised Speech Recognition via Local Prior Matching
本文提出局部先验匹配(LPM),一种半监督语音识别方法,通过使用未标注的语音和文本,将强语言模型的知识蒸馏到判别性自动语音识别(ASR)模型中。通过将ASR模型的输出分布与基于未标注语音生成的假设的语言模型目标分布相匹配,LPM在仅使用100小时标注数据和360小时未标注数据的情况下,在干净和嘈杂的LibriSpeech测试集上分别实现了54%和73%的词错误率恢复,优于以往的知识蒸馏和伪标签方法。
For sequence transduction tasks like speech recognition, a strong structured prior model encodes rich information about the target space, implicitly ruling out invalid sequences by assigning them low probability. In this work, we propose local prior matching (LPM), a semi-supervised objective that distills knowledge from a strong prior (e.g. a language model) to provide learning signal to a discriminative model trained on unlabeled speech. We demonstrate that LPM is theoretically well-motivated, simple to implement, and superior to existing knowledge distillation techniques under comparable settings. Starting from a baseline trained on 100 hours of labeled speech, with an additional 360 hours of unlabeled data, LPM recovers 54% and 73% of the word error rate on clean and noisy test sets relative to a fully supervised model on the same data.
研究动机与目标
- 通过利用大量未配对的音频和文本,解决自动语音识别(ASR)中转录语音数据成本高且稀缺的问题。
- 开发一种半监督学习方法,有效将语言模型中的语言先验知识蒸馏到ASR模型中,而无需额外模块的联合训练。
- 通过基于理论基础的、易于实现的目标函数,利用未标注数据提升低资源设置下的ASR性能。
- 证明从先验(语言模型)蒸馏知识而非从后验(如伪标签)可带来更好的泛化能力与更低的词错误率。
提出的方法
- LPM使用一个提议模型从未标注的语音中生成多个假设,随后由预训练的语言模型对这些假设进行评分,生成知识蒸馏的目标分布。
- ASR模型通过交叉熵损失函数,被训练以匹配语言模型在所提议假设上的分布。
- 该方法在生成建模理论上具有基础支撑,通过贝叶斯定理使用 $ p_{\mathbf{y}} $ 和 $ p_{\mathbf{x}|\mathbf{y}} $ 近似后验 $ p_{\mathbf{y}|\mathbf{x}} $,其中边缘化通过假设近似实现。
- 提议模型在训练过程中被更新,随着时间推移逐步提升假设质量,从而实现ASR模型的迭代优化。
- LPM避免对抗训练或循环一致性约束,转而依赖于从强先验(语言模型)到ASR模型的合理蒸馏。
- 通过重复使用假设并迭代更新提议模型,该方法可扩展至高达60,000小时的未标注数据。
实验结果
研究问题
- RQ1当仅有少量标注数据时,从语言模型先验进行知识蒸馏是否能提升ASR性能?
- RQ2将ASR模型输出与语言模型在多个假设上的分布相匹配,是否比伪标签法或后验蒸馏带来更好的泛化能力?
- RQ3提议模型在训练过程中生成的假设质量如何演变,这对最终ASR性能有何影响?
- RQ4LPM能否有效扩展至极大量的未标注数据?当拥有足够多的未标注数据时,其性能是否能超越完全监督基线?
- RQ5生成假设的语言合情性与模型性能之间有何关联?是否能通过语言模型困惑度进行量化?
主要发现
- 在仅使用100小时标注数据和360小时未标注数据的情况下,LPM在干净和嘈杂的LibriSpeech测试集上分别实现了54%和73%的词错误率恢复,相对于使用460小时标注数据训练的完全监督模型。
- 当在100小时标注数据和860小时未标注数据上训练时,LPM超越了在460小时标注数据上训练的完全监督模型,在dev-clean和dev-other集上分别实现59.53%和108.33%的WER恢复。
- LPM优于强基线伪标签方法(Kahn et al., 2019a),在860小时未标注数据后,LPM在train-other-500上的WER为13.00%,而伪标签方法为21.51%。
- LPM模型生成的假设的语言模型困惑度显著低于基线和伪标签方法,dev-clean和dev-other上的困惑度分别为59.84和125.42,表明其语言合情性得到提升。
- LPM模型的提议模型随时间推移不断改进,使未标注数据上的WER从29.03%降低至13.00%(在train-other-500上),证明了迭代优化的益处。
- 当扩展至60,000小时未标注数据时,LPM在dev-clean和dev-other上分别实现83.03%和115.90%的WER恢复,显示出强大的可扩展性,并且在更多数据下仍持续获得性能增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。