[论文解读] Model Unit Exploration for Sequence-to-Sequence Speech Recognition.
本文研究了注意力机制序列到序列语音识别中的建模单元,发现在 LibriSpeech 100 小时、460 小时和 960 小时数据集上,音素和词片模型的表现均优于音素基模型,即使不使用词典或语言模型。此外,研究还表明,使用音素或音素模型对强词片模型生成的 N 最佳候选列表进行重打分,可将 WER 相对降低高达 9%,这是由于生成的假设更加多样化。
In conventional speech recognition, phoneme-based models outperform grapheme-based models for non-phonetic languages such as English. The performance gap between the two typically reduces as the amount of training data is increased. In this work, we examine the impact of the choice of modeling unit for attention-based encoder-decoder models. We conduct experiments on the LibriSpeech 100hr, 460hr, and 960hr tasks, using various target units (phoneme, grapheme, and word-piece); across all tasks, we find that grapheme or word-piece models consistently outperform phoneme-based models, even though they are evaluated without a lexicon or an external language model. We also investigate model complementarity: we find that we can improve WERs by up to 9% relative by rescoring N-best lists generated from a strong word-piece based baseline with either the phoneme or the grapheme model. Rescoring an N-best list generated by the phonemic system, however, provides limited improvements. Further analysis shows that the word-piece-based models produce more diverse N-best hypotheses, and thus lower oracle WERs, than phonemic models.
研究动机与目标
- 评估不同建模单元(音素、音素和词片)对基于注意力机制的编码器-解码器语音识别模型的影响。
- 确定在大规模训练数据下且不使用外部语言模型或词典时,不同建模单元之间的性能差异是否依然存在。
- 通过使用一个模型生成的 N 最佳候选列表,用另一个模型进行重打分,探索模型之间的互补性。
- 分析不同建模单元生成的 N 最佳候选列表的多样性及其对最优 WER 的影响。
提出的方法
- 在 LibriSpeech 100 小时、460 小时和 960 小时子集上,使用音素、音素和词片单元训练端到端的基于注意力机制的编码器-解码器模型。
- 在不使用外部语言模型或词典的条件下评估所有模型,以隔离建模单元的影响。
- 从每个模型生成 N 最佳候选列表,并使用其他模型对这些列表进行重打分,以评估模型间的互补性。
- 测量最优 WER 以评估不同建模单元下 N 最佳候选列表的多样性和质量。
- 分析 N 最佳候选列表的分布和多样性,以解释性能差异。
实验结果
研究问题
- RQ1在不使用外部语言模型或词典的情况下,音素或词片模型是否在基于注意力机制的序列到序列自动语音识别中优于音素基模型?
- RQ2使用音素或音素模型对强词片模型生成的 N 最佳候选列表进行重打分,是否能显著降低 WER?
- RQ3重打分带来的性能提升是否依赖于生成 N 最佳候选列表的基模型?
- RQ4词片、音素和音素模型生成的 N 最佳候选列表在多样性上如何不同,这种差异对最优 WER 有何影响?
主要发现
- 在所有 LibriSpeech 数据规模下,音素和词片模型均持续优于音素基模型,即使不使用词典或语言模型。
- 使用音素或音素模型对强词片模型生成的 N 最佳候选列表进行重打分,可将 WER 相对降低高达 9%。
- 从音素模型进行重打分仅带来有限的改进,表明其互补性较弱。
- 基于词片的模型生成的 N 最佳候选列表比音素模型更具多样性,从而导致更低的最优 WER。
- 随着训练数据量的增加,音素与音素/词片模型之间的性能差距逐渐缩小,但音素/词片模型仍保持优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。