QUICK REVIEW

[論文レビュー] Duration Aware Scheduling for ASR Serving Under Workload Drift

Darshan Makwana, Yash Jogi|arXiv (Cornell University)|Mar 11, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

論文は音声長がASR処理時間の代理指標になり得ることを示し、Shortest Job First（SJF）とHighest Response Ratio Next（HRRN）をvLLMに組み込んでエンドツーエンド遅延を低減する。SJFは中位の利得を大きく、HRRNはドリフト下でテール遅延を拘束する。

ABSTRACT

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to $73\%$ at high load, but increases $90$th-percentile tail latency by up to $97\%$ due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to $28\%$ while bounding tail-latency degradation to at most $24\%$. These gains persist under workload drift, with no throughput penalty and $<0.1$\,ms scheduling overhead per request.

研究の動機と目的

variable workloads の下で ASR サービングパイプラインの E2E 遅延を低減する動機づけ。
Whisper 風の ASR モデルにおける音声長と処理時間の相関を示し、スケジューリングの指針とする。
現実的かつドリフトしたワークロードに対して duration-aware scheduling を FCFS と比較して評価する。
生产環境の ASR サービングエンジンにおける SJF および HRRN のデプロイ可能な実装を提供する。

提案手法

音声長と出力トークン数の線形相関を実証的に確立し、ジョブの時間推定を長さベースで可能にする。
Shortest Job First（SJF）とHighest Response Ratio Next（HRRN）の二つの古典的スケジューラを、推定ジョブ長として音声長を用いて実装する。
これらのスケジューラを vLLM エンジンに統合し、LibriSpeech test-clean の Whisper large-v3 および合成的な一様長さワークロードで評価する。
到着率を変化させたポアソン到着でワークロードのドリフトを模擬し、P50およびP90分位でエンドツーエンド遅延（E2EL）と最初のトークンまでの時間（TTFT）を測定する。
各リクエストあたりのスケジューリングオーバーヘッドを0.1 ms未満に維持し、スループットにペナルティがないことを確認する。
静穏性感度、適応的κ、ダイナミックポリシー切替といった制約を議論し、実用的な緩和策を提案する。

Figure 1: Toy example illustrating head-of-line blocking under FCFS and the benefit of duration-aware scheduling. Three requests arrive in order $R_{1},R_{2},R_{3}$ with audio durations $8$ s, $4$ s, and $2$ s. We assume a constant encoder cost of $1$ s per request and a decoding rate of $5$ output

実験結果

リサーチクエスチョン

RQ1 Whisper のようなエンコーダ–デコーダモデルで音声長が処理時間を信頼性高く予測できるか？
RQ2 ドリフト下でも中位の E2E 遅延を低減し、尾部遅延を過度に増大させずに duration-based scheduling（SJFとHRRN）は機能するか？
RQ3 ASR サービングにおける SJF/HRRN と FCFS のスループットとスケジューリングオーバーヘッドの比較は？
RQ4 duration-aware scheduling の利得はモデル規模や異なる長さ分布でも一般化するか？
RQ5 生産環境で duration-aware scheduling を導入する際の実用的な考慮事項と制約は？

主な発見

LibriSpeech test-clean で高負荷時に SJF は E2E 遅延の中央値を最大で73%低減するが、長いリクエストの飽和により90パーセンタイルのテール遅延が最大で97%増加する。
LibriSpeech ワークロード下で HRRN は中央値の E2E 遅延を最大で28%低減し、90パーセンタイルのテール遅延の劣化を最大で24%に抑える。
両ポリシーともリクエストあたりのスケジューリングオーバーヘッドが0.1 ms未満で、試験条件下で FCFS と同等のスループットを達成する。
ワークロードドリフト下でも Whisper-large-v3 on LibriSpeech と合成的な一様長さワークロードで利益が持続し、再順序付けが利得の推進要因であり、長さの歪みの悪用ではないことを示す。
TTFT は SJF 下でさらに大きな中央値改善を示し、LibriSpeech の高負荷時には最大93%の削減。
バーストワークロード（到着率無限）下では HRRN が遅延指標全体で最も一貫した改善を提供し、SJF よりも小さなテールペナルティを示す。

Figure 2: Scatter plots showing the relationship between audio duration and ASR output token count. (a) On the LibriSpeech English test set, token count increases linearly with audio duration, indicating a strong correlation. (b) On the FLEURS test sets for Spanish, Hindi, and Arabic, the linear dur

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。