QUICK REVIEW

[论文解读] Large Scale Language Modeling in Automatic Speech Recognition

Ciprian Chelba, Dan Bikel|arXiv (Cornell University)|Oct 31, 2012

Speech Recognition and Synthesis参考文献 11被引用 37

一句话总结

本文展示了大规模n-gram语言模型在多种任务中显著提升了自动语音识别（ASR）性能。通过在大规模数据集（最多2300亿词）上进行训练，并使用分布式语言模型架构进行词 lattice 重打分，作者实现了6%至10%的相对词错误率（WER）降低，尤其在YouTube转录等高错误率场景下，性能提升最高达10%相对。

ABSTRACT

Large language models have been proven quite beneficial for a variety of automatic speech recognition tasks in Google. We summarize results on Voice Search and a few YouTube speech transcription tasks to highlight the impact that one can expect from increasing both the amount of training data, and the size of the language model estimated from such data. Depending on the task, availability and amount of training data used, language model size and amount of work and care put into integrating them in the lattice rescoring step we observe reductions in word error rate between 6% and 10% relative, for systems on a wide range of operating points between 17% and 52% word error rate.

研究动机与目标

评估大规模语言模型对真实世界自动语音识别（ASR）系统的影响。
研究语言模型规模和训练数据量增加对ASR性能的影响。
验证使用大规模语言模型进行lattice重打分在提升词错误率（WER）方面的有效性。
量化不同训练数据源（如网络爬取数据和广播新闻）对语言模型鲁棒性的贡献。
将大规模语言模型带来的性能提升与先进声学建模技术（如深度置信网络DBNs）的改进进行对比。

提出的方法

在最多2300亿词的匿名Google搜索查询数据上训练3-gram和5-gram语言模型。
使用熵剪枝技术在保持性能的同时减小模型规模，模型大小范围从1500万个到15亿个n-gram。
采用分布式语言模型架构实现lattice重打分，从而在无需完整首次解码的情况下评估大规模模型。
采用Kneser-Ney平滑法，并对多个语言模型组件（如网络爬取数据、广播新闻和转录数据）进行线性插值。
使用MERT（最小错误率训练）在保留的测试集上优化插值权重，以最大化ASR性能。
对使用较小首次解码语言模型生成的lattice进行重打分，从而实现对极大规模语言模型的评估。

实验结果

研究问题

RQ1在大规模文本语料上训练的语言模型规模增大时，对ASR中的词错误率（WER）有何影响？
RQ2使用大规模语言模型进行lattice重打分，在多大程度上能复现使用大模型进行首次解码的性能？
RQ3网络爬取文本与经过筛选的广播新闻数据对语言模型在多样化ASR任务中的性能贡献如何？
RQ4插值权重和模型集成策略如何影响重打分流程中的最终WER？
RQ5大规模语言模型能否在ASR中实现与先进声学模型（如深度置信网络DBNs）相当的WER改进？

主要发现

在语音搜索任务中，使用16亿n-gram的5-gram语言模型相比1500万个n-gram的3-gram模型，WER相对降低10%，绝对降低1.8%。
使用127亿n-gram的5-gram语言模型进行lattice重打分，在语音搜索任务中达到16.8%的WER，与使用大模型进行首次解码的性能相当。
在2011年YouTube测试集上，使用56亿n-gram的4-gram语言模型进行重打分，WER绝对降低3.2%（相对降低6%），MERT优化权重后效果最佳。
在2008年YouTube测试集上，使用190亿n-gram的4-gram语言模型进行重打分，WER从34.6%降至31.8%，绝对降低2.8%（相对降低8%）。
网络爬取文本的贡献非常显著：从混合模型中移除其影响后，WER绝对上升1.2%，凸显其对多样化词汇覆盖的重要性。
大规模语言模型重打分带来的性能提升与深度神经网络声学模型相当，在不同工作点上实现了6–9%的相对WER降低。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。