[论文解读] Transformer-based Automatic Speech Recognition of Formal and Colloquial Czech in MALACH Project
本文研究了基于 Wav2Vec 2.0 的端到端自动语音识别(ASR)模型直接将口语化捷克语语音转录为正式书面语文本的能力,而无需显式的音素或词汇对齐。该模型在原始音频与正式转录文本上进行微调时,学习了口语语音与正式文本之间的映射关系,其性能优于传统 LVCSR 系统,且无需复杂的基于规则的后处理或模糊的口语化转录。
Czech is a very specific language due to its large differences between the formal and the colloquial form of speech. While the formal (written) form is used mainly in official documents, literature, and public speeches, the colloquial (spoken) form is used widely among people in casual speeches. This gap introduces serious problems for ASR systems, especially when training or evaluating ASR models on datasets containing a lot of colloquial speech, such as the MALACH project. In this paper, we are addressing this problem in the light of a new paradigm in end-to-end ASR systems -- recently introduced self-supervised audio Transformers. Specifically, we are investigating the influence of colloquial speech on the performance of Wav2Vec 2.0 models and their ability to transcribe colloquial speech directly into formal transcripts. We are presenting results with both formal and colloquial forms in the training transcripts, language models, and evaluation transcripts.
研究动机与目标
- 解决在正式与口语化变体并存的捷克语语音上训练 ASR 系统的挑战,这些变体在语言上差异显著,对标准模型构成困难。
- 评估自监督的 Wav2Vec 2.0 模型是否能够在无需人工音素或词汇对齐的情况下,直接学习将口语化捷克语语音映射到正式书面转录文本。
- 比较在口语化与正式转录文本上训练的模型性能,并评估语言模型对识别准确率的影响。
- 探究端到端的 Wav2Vec 2.0 模型是否在泛化能力上优于对口语化 ASR 输出进行基于规则的后处理。
- 证明仅使用正式转录文本即可实现有效的微调,从而简化数据收集与标注过程。
提出的方法
- 在来自 MALACH 项目、包含正式与口语化语音的原始音频与正式书面转录文本对上微调 Wav2Vec 2.0 模型。
- 在训练、语言建模和评估中均使用正式与口语化转录文本,以评估模型的鲁棒性与泛化能力。
- 采用束搜索解码方法,并使用两个语言模型:一个在正式捷克语上训练(LMformal),另一个在口语化捷克语上训练(LMcolloq)。
- 为口语化模型输出实现基于规则的正式化后处理(FP)步骤,以与端到端正式转录方法进行比较。
- 采用基于 CTC 的解码方法进行序列转换,使模型能够学习音频帧与输出标记之间的对齐关系。
- 使用词错误率(WER)和字符错误率(CER)在正式与口语化测试集上评估模型性能。
实验结果
研究问题
- RQ1Wav2Vec 2.0 模型是否能够在无需显式对齐或发音建模的情况下,直接学习将口语化捷克语语音转录为正式书面形式?
- RQ2训练转录文本的选择(正式 vs. 口语化)如何影响模型在正式与口语化测试集上的性能?
- RQ3在原始音频与正式转录文本上进行端到端训练,是否在泛化能力上优于对口语化模型输出进行基于规则的后处理?
- RQ4在语音变异存在的情况下,使用正式与口语化语言模型对识别准确率有何影响?
- RQ5Wav2Vec 2.0 模型在未见口语化词汇的正式转录上,其泛化能力能达到何种程度?
主要发现
- 在原始音频与正式转录文本上微调的 Wav2Vec 2.0 模型在正式测试集上达到 10.48% 的 WER,优于最佳 LVCSR 系统(14.71% WER)。
- 在口语化转录文本上训练的模型(W2Vcolloq)在口语化测试集上达到 11.55% 的 WER,显著优于 LVCSR 基线(14.71% WER)。
- 尽管 W2Vformal 模型在正式测试集上的错误率略高(11.52% WER),但其在正确转录未见口语化形式方面表现出更优的泛化能力,这些形式未被基于规则的正式化方法覆盖。
- 基于规则的正式化后处理(W2Vcolloq+FP)的错误率与 W2Vformal 相当,但因参考错误而容易产生误报,表明其鲁棒性较低。
- W2Vformal 模型在未见口语化形式上的泛化能力——即使在参考错误的情况下仍能正确预测——表明其在语言泛化能力上优于基于规则的方法。
- 本研究证实,仅使用正式转录文本即可实现有效的微调,从而实现更简单、无歧义的数据收集,无需口语化转录或人工规则创建。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。