QUICK REVIEW

[論文レビュー] SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Youness Dkhissi, Valentin Vielzeuf|arXiv (Cornell University)|Feb 17, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

SENS-ASR は文埋め込み教師から蒸留された文脈モジュールを用いてストリーミング ASR に意味的文脈を注入し、外部リスコアリングなしでも小さなストリーミングチャンクの WER を改善する。

ABSTRACT

Many Automatic Speech Recognition (ASR) applications require streaming processing of the audio data. In streaming mode, ASR systems need to start transcribing the input stream before it is complete, i.e., the systems have to process a stream of inputs with a limited (or no) future context. Compared to offline mode, this reduction of the future context degrades the performance of Streaming-ASR systems, especially while working with low-latency constraint. In this work, we present SENS-ASR, an approach to enhance the transcription quality of Streaming-ASR by reinforcing the acoustic information with semantic information. This semantic information is extracted from the available past frame-embeddings by a context module. This module is trained using knowledge distillation from a sentence embedding Language Model fine-tuned on the training dataset transcriptions. Experiments on standard datasets show that SENS-ASR significantly improves the Word Error Rate on small-chunk streaming scenarios.

研究の動機と目的

限られた未来の文脈が転写品質を低下させるストリーミング ASR を動機づける。
エンコーダのフレーム埋め込みに意味情報を注入する文脈モジュールを提案する。
意味文脈を誘導するために文埋め込みモデルからの知識蒸留を活用する。
意味の豊かさが小チャンクのストリーミングシナリオにおける WER をデータセット間で改善することを示す。
Dynamic Chunk Training によって全-context 音声と競合する性能を維持する。）

提案手法

専用の Context Module を備えた RNN-T アーキテクチャを拡張する。
対象ドメイン上で微調整された Sentence Embedding Model からの知識蒸馏を通じて Context Module を訓練する。
過去のフレーム埋め込みから意味的文脈埋め込みを得るために attention-pooling を用いる。
ジャoint network の前にチャンクレベルの意味文脈を各フレーム埋め込みと連結する。
L_RNN-T と蒸馏損失 L_MSE を用いて最適化し、α を 0.2 に調整する。FastEmit 正則化を適用する。
訓練中にモデルがさまざまな文脈長に曝露されるよう Dynamic Chunk Training を採用する。

実験結果

リサーチクエスチョン

RQ1小チャンクストリーミングの制約の下で、ストリーミング ASR のフレーム埋め込みに意味的文脈を注入すると WER は低減するか。
RQ2LibriSpeech および TEDLIUM-2 において、異なるチャンクサイズを用いた場合、Baseline RNN-T と比較して SENS-ASR はどのように性能を発揮するか。
RQ3推論時の外部リスコアリングに頼ることなく、蒸留誘導型の意味的教師がエンコーダ表現を改善できるか。
RQ4 paraphrase ベースのドメイン適応を介して Sentence Embedding 教師を微調整することが下流の ASR に与える影響は何か。
RQ5ストリーミング条件下で LibriSpeech test-clean/test-other および TEDLIUM-2 のようなデータセット間で提案手法はロバストか。

主な発見

Dataset	Model	Chunk size (ms)	160ms WER	320ms WER	640ms WER	1280ms WER	Full-context WER
LibriSpeech test-clean	Baseline	160	7.55	4.82	3.90	3.49	2.90
LibriSpeech test-clean	SENS-ASR	160	7.21	4.73	3.83	3.44	2.93
LibriSpeech test-other	Baseline	160	18.34	12.41	9.70	8.39	6.76
LibriSpeech test-other	SENS-ASR	160	17.89	12.11	9.66	8.55	6.90
TEDLIUM-2	Baseline	160	16.52	11.94	10.04	9.00	8.33
TEDLIUM-2	SENS-ASR	160	15.60	11.82	9.79	8.96	8.33

SENS-ASR は小さなチャンク（例: 160 ms, 320 ms）で Baseline と比較してデータセット全体の WER を低減する。
LibriSpeech test-clean の 160 ms チャンクで、WER は Baseline の 7.55 から SENS-ASR の 7.21 に改善。
LibriSpeech test-clean の 1280 ms チャンクで、WER は Baseline の 3.49 から SENS-ASR の 3.44 に改善；全文脈とほぼ同等。
LibriSpeech test-other の 160 ms チャンクで、WER は Baseline の 18.34 から SENS-ASR の 17.89 に改善。
TEDLIUM-2 の 160 ms チャンクで、WER は Baseline の 16.52 から SENS-ASR の 15.60 に改善。
SENS-ASR は Dynamic Chunk Training で訓練された場合、LibriSpeech test-clean において最先端のストリーミング ASR モデルと競合する結果を示し、時には大きなチャンクや全-context のベースラインに匹敵することがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。