QUICK REVIEW

[论文解读] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

Avihu Dekel, Samuel Thomas|arXiv (Cornell University)|Mar 9, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

NLE 将基于大模型的ASR重新框定为对初始CTC假设的并行转录编辑，使用带有互插插槽的双向大模型编辑器，以实现快速非自回归解码并具有竞争力的准确性。

ABSTRACT

While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.

研究动机与目标

通过实现并行、非自回归解码来提高LLM基础的ASR的速度和高准确性。
利用初始CTC假设和声学上下文通过双向LLM编辑器编辑转录。
采用互插插槽和同一性映射偏置以将编辑聚焦于局部并降低重构工作量。
证明NLE和NLE++在Open ASR的多语言场景中，在WER与推理速度的帕累托前沿。

提出的方法

冻结预训练的CTC语音编码器以产生声学嵌入和初始假设。
重新标记CTC假设以与LLM词汇表对齐并创建带显式插入槽的互插序列。
通过LoRA对双向注意力的预训练LLM进行适配，以CTC风格目标编辑互插转录。
在潜在对齐（CTC）目标和复制正则化损失下训练，以促进身份映射和复制偏置。
推理阶段通过对编辑器的单次前向传播来并行预测编辑，可选多步细化。

实验结果

研究问题

RQ1双向LLM对CTC假设进行非自回归编辑，是否能够在提供比自回归LLM-ASR更快的推理速度的同时达到有竞争力的WER？
RQ2结构选择（插入槽、双向注意力、复制正则化）如何影响编辑性能与收敛性？
RQ3互插填充与端填充对准确性和速度有何影响？
RQ4在多语言和真实世界数据集上，该方法的泛化程度如何？
RQ5启用多步编辑相比单步编辑是否能带来有意义的提升？

主要发现

数据集	NLE WER (%)	AR WER (%)	CTC WER (%)
ami-ihm	8.3	8.6	9.4
ami-sdm	21.4	23.8	24.4
cv15-de	5.6	4.7	6.3
cv15-en	7.3	7.1	9.5
cv15-es	5.0	4.1	5.5
cv15-fr	8.2	7.2	10.8
cv15-pt	3.0	2.7	3.4
earnings	10.0	10.1	11.5
gigaspeech	10.1	10.0	10.6
ls-clean	1.4	1.5	1.7
ls-other	3.1	3.1	3.7
mls-de	4.7	4.5	4.9
mls-en	4.8	4.7	5.7
mls-es	3.5	3.1	3.7
mls-fr	4.6	4.5	5.6
mls-pt	10.0	10.1	8.5
spgi	3.5	3.5	4.5
ted-lium	3.9	3.7	3.9
vox	6.2	6.2	7.1
Aggregate Metrics - Average (All 19)	6.54	6.48	7.40
Open ASR Average	5.79	5.82	6.55
CV Average	5.79	5.18	7.10
MLS Average	5.51	5.39	5.66

NLE在批量推理下实现5.79%的Open ASR平均WER和1722的RTFx，处于帕累托前沿，具有竞争力的准确性与速度。
NLE++在更大训练与模型容量下将Open ASR WER提升至5.67%，RTFx降至1630，仍保持在帕累托前沿。
与受控的自回归基线相比，NLE在批量和单次语音输入上的加速分别约为4倍和27倍，且精度相当。
NLE在19个测试集中的17个上始终优于CTC编码器基线，但在某些多语言条件下（如CommonVoice子集）可能因英文为主的分词器与数据偏置而效果较差。
消融研究表明，双向注意力、互插填充、声学条件、假设条件、LoRA自适应以及复制正则化均有助于提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。