QUICK REVIEW

[論文レビュー] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

Avihu Dekel, Samuel Thomas|arXiv (Cornell University)|Mar 9, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

NLEは、L LMベースのASRを初期CTC仮説の並列転写編集として再定義し、挿入スロットを挟んだ双方向のLLMエディタを用いて、競争力の精度で高速な非自己回帰デコードを実現します。

ABSTRACT

While autoregressive (AR) LLM-based ASR systems achieve strong accuracy, their sequential decoding limits parallelism and incurs high latency. We propose NLE, a non-autoregressive (NAR) approach that formulates speech recognition as conditional transcript editing, enabling fully parallel prediction. NLE extracts acoustic embeddings and an initial hypothesis from a pretrained speech encoder, then refines the hypothesis using a bidirectional LLM editor trained with a latent alignment objective. An interleaved padding strategy exploits the identity mapping bias of Transformers, allowing the model to focus on corrections rather than full reconstruction. On the Open ASR leaderboard, NLE++ achieves 5.67% average WER with an RTFx (inverse real-time factor) of 1630. In single-utterance scenarios, NLE achieves 27x speedup over the AR baseline, making it suitable for real-time applications.

研究の動機と目的

並列・非自己回帰デコードを可能にすることで、より高速かつ高精度なLLMベースASRを動機づける。
初期CTC仮説と音響コンテキストを活用し、双方向LLMエディタで転写を編集する。
挿入スロットの相互配置と同一マッピングバイアスを用いて編集を局所化し、再構成の労力を削減する。
NLEおよびNLE++が、複数言語にわたるOpen ASRにおけるWERと推論速度のパレート前線上にあることを示す。

提案手法

事前学習済みCTC音声エンコーダを凍結して音響埋め込みと初期仮説を生成する。
CTC仮説をLLM語彙に合わせて再トークン化し、明示的な挿入スロットを含む相互配置系列を作成する。
LoRAを介した双方向注意機構を備えた事前学習済みLLMを適応させ、CTC風の目的関数で相互配置転写を編集する。
潜在的なアライメント（CTC）目的とコピー正則化損失で学習し、同一マッピングとコピーbiasを促進する。
推論はエディタを1回前方伝播させて並列に編集を予測し、必要に応じて多段階の精製を行う。

実験結果

リサーチクエスチョン

RQ1双方向LLMによるCTC仮説の非自己回帰編集は、AR-LLMベースASRと比較して推論速度を速めつつ競争力のあるWERを達成できるか。
RQ2挿入スロット、双方向注意、コピー正則化などのアーキテクチャ的選択は、編集性能と収束にどのような影響を与えるか。
RQ3相互配置パディングとエンドパディングの使用が精度と速度に与える影響はどの程度か。
RQ4このアプローチは複数言語・実世界データセットにどの程度一般化するか。
RQ5マルチステップ編集を有効にすると、シングルステップ編集と比べて有意な向上が得られるか。

主な発見

Dataset	NLE WER (%)	AR WER (%)	CTC WER (%)
ami-ihm	8.3	8.6	9.4
ami-sdm	21.4	23.8	24.4
cv15-de	5.6	4.7	6.3
cv15-en	7.3	7.1	9.5
cv15-es	5.0	4.1	5.5
cv15-fr	8.2	7.2	10.8
cv15-pt	3.0	2.7	3.4
earnings	10.0	10.1	11.5
gigaspeech	10.1	10.0	10.6
ls-clean	1.4	1.5	1.7
ls-other	3.1	3.1	3.7
mls-de	4.7	4.5	4.9
mls-en	4.8	4.7	5.7
mls-es	3.5	3.1	3.7
mls-fr	4.6	4.5	5.6
mls-pt	10.0	10.1	8.5
spgi	3.5	3.5	4.5
ted-lium	3.9	3.7	3.9
vox	6.2	6.2	7.1
Aggregate Metrics - Average (All 19)	6.54	6.48	7.40
Open ASR Average	5.79	5.82	6.55
CV Average	5.79	5.18	7.10
MLS Average	5.51	5.39	5.66

NLEはOpen ASR平均WER5.79%およびバッチ推論時RTFx 1722を達成し、競争力のある精度と速度でパレート前線に位置。
NLE++はOpen ASR WERを5.67%に改善し、RTFxを1630に減少させ、より大きな学習・モデル容量でパレート前線に残る。
制御された自己回帰ベースラインと比較して、NLEはバッチで約4倍、単一発話で約27倍の速度アップを提供し、精度は同等。
NLEは19のテストセット中17でCTCエンコーダーベースラインを上回る一方、英語中心のトークナイザとデータバイアスにより一部多言語条件で効果が低い場合がある。
アブレーション研究は、双方向注意、挿入パディング、音響条件付け、仮説条件付け、LoRA適応、コピー正則化のそれぞれが性能向上に寄与することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。