QUICK REVIEW

[논문 리뷰] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

Avihu Dekel, Samuel Thomas|arXiv (Cornell University)|2026. 03. 09.

Speech Recognition and Synthesis인용 수 0

한 줄 요약

NLE은 LLM 기반 ASR을 초기 CTC 가설의 병렬 트랜스크립트 편집으로 재구성하고, 인터리브된 삽입 슬롯이 있는 양방향 LLM 편집기를 사용하여 빠른 비자회귀적 디코딩과 경쟁력 있는 정확도를 달성한다.

ABSTRACT

While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.

연구 동기 및 목표

더 빠르고 높은 정확도의 LLM 기반 ASR을 병렬적이고 비자회귀적으로 디코딩 가능하게 만드는 것을 목표로 한다.
초기 CTC 가설과 음향 맥락을 활용하여 양방향 LLM 편집기로 트랜스크립트를 편집한다.
인터리브된 삽입 슬롯과 동일성 매핑 바이어스를 활용하여 편집을 국소적으로 집중시키고 재구성 노력을 줄인다.
NLE와 NLE++가 여러 언어에 걸쳐 Open ASR에서 WER 대 추론 속도에 대한 파레토 프런티어에 위치함을 입증한다.

제안 방법

사전 학습된 CTC 음성 인코더를 동결하여 음향 임베딩과 초기 가설을 생성한다.
CTC 가설을 LLM 어휘와 맞추고 명시적 삽입 슬롯이 있는 인터리브 시퀀스를 생성한다.
LoRA를 통한 양방향 주의력을 적용한 사전 학습된 LLM을 CTC 스타일 목표를 사용하여 인터리브된 트랜스크립트를 편집하도록 조정한다.
잠재 정렬(CTC) 목표와 복사 정규화 손실로 학습하여 동일성 매핑과 복사 바이어스를 촉진한다.
추론은 편집기에 단일 순전파를 실행하여 병렬로 편집을 예측하며, 필요시 다단계 정제도 선택적으로 수행한다.

실험 결과

연구 질문

RQ1양방향 LLM의 비자회귀적 CTC 가설 편집이 AR LLM 기반 ASR에 비해 추론 속도를 빠르게 하면서 경쟁력 있는 WER을 달성할 수 있는가?
RQ2삽입 슬롯, 양방향 주의력, 복사 정규화와 같은 아키텍처 선택이 편집 성능과 수렴에 어떤 영향을 미치는가?
RQ3정확도와 속도에 대한 엔드 패딩(end-padding) 대신 인터리브 패딩 사용의 영향은 무엇인가?
RQ4다양한 언어 및 실제 데이터셋에 걸쳐 이 접근 방식이 얼마나 일반화되는가?
RQ5다중 단계 편집을 가능하게 하면 단일 단계 편집에 비해 의미 있는 향상을 얻을 수 있는가?

주요 결과

데이터셋	NLE WER (%)	AR WER (%)	CTC WER (%)
ami-ihm	8.3	8.6	9.4
ami-sdm	21.4	23.8	24.4
cv15-de	5.6	4.7	6.3
cv15-en	7.3	7.1	9.5
cv15-es	5.0	4.1	5.5
cv15-fr	8.2	7.2	10.8
cv15-pt	3.0	2.7	3.4
earnings	10.0	10.1	11.5
gigaspeech	10.1	10.0	10.6
ls-clean	1.4	1.5	1.7
ls-other	3.1	3.1	3.7
mls-de	4.7	4.5	4.9
mls-en	4.8	4.7	5.7
mls-es	3.5	3.1	3.7
mls-fr	4.6	4.5	5.6
mls-pt	10.0	10.1	8.5
spgi	3.5	3.5	4.5
ted-lium	3.9	3.7	3.9
vox	6.2	6.2	7.1
Aggregate Metrics - Average (All 19)	6.54	6.48	7.40
Open ASR Average	5.79	5.82	6.55
CV Average	5.79	5.18	7.10
MLS Average	5.51	5.39	5.66

NLE는 배치 추론에서 Open ASR 평균 WER 5.79% 및 1722 RTFx를 달성하여 파레토 프런티어에 위치하며 경쟁력 있는 정확도와 속도를 보인다.
NLE++는 더 큰 학습 및 모델 용량으로 Open ASR WER을 5.67%로 개선하고 RTFx를 1630으로 감소시키며 파레토 프런티어에 머문다.
제어된 자동회귀 기준선과 비교할 때 NLE는 배치에서 약 4배, 단일 발화에서 27배의 속도 증가를 제공하되 비슷한 정확도를 유지한다.
NLE는 19개의 테스트 세트 중 17개에서 CTC 인코더 기준선보다 일관되게 우수한 성능을 보이는 반면, 영어 중심의 토크나이저 및 데이터 편향으로 인해 일부 다국어 조건에서 덜 효과적일 수 있다.
절삭 연구(ablation)에서 양방향 주의, 인터리브 패딩, 음향 조건화, 가설 조건화, LoRA 적응, 복사 정규화가 각각 성능 향상에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.