[论文解读] WhisperX: Time-Accurate Speech Transcription of Long-Form Audio
WhisperX 增加基于 VAD 的预分段、Cut & Merge 分段、并行 Whisper 转写,以及强制音素对齐,以在长音频上实现时间精确、逐词级转写,并获得显著的加速。
Large-scale, weakly-supervised speech recognition models, such as Whisper, have demonstrated impressive results on speech recognition across domains and languages. However, their application to long audio transcription via buffered or sliding window approaches is prone to drifting, hallucination & repetition; and prohibits batched transcription due to their sequential nature. Further, timestamps corresponding each utterance are prone to inaccuracies and word-level timestamps are not available out-of-the-box. To overcome these challenges, we present WhisperX, a time-accurate speech recognition system with word-level timestamps utilising voice activity detection and forced phoneme alignment. In doing so, we demonstrate state-of-the-art performance on long-form transcription and word segmentation benchmarks. Additionally, we show that pre-segmenting audio with our proposed VAD Cut & Merge strategy improves transcription quality and enables a twelve-fold transcription speedup via batched inference.
研究动机与目标
- 解决长时段语音转写中精确逐词时间戳的挑战。
- 通过批处理、并行处理提高长时段音频的转写吞吐量。
- 通过将 Whisper 与外部音素模型结合,实现可靠的逐词对齐。
- 展示基于 VAD 的预分段在转写质量和速度上的优势。
提出的方法
- 使用语音活动检测 (VAD) 模型对音频进行预分段,以识别语音区域。
- 应用最小割操作以强制符合ASR模型的段长度上限(约30秒)。
- 合并相邻的短段以保持上下文丰富性并接近训练阶段的段长度。
- 对 VAD 驱动的分段进行并行转写,使用 Whisper,且不对先前文本进行条件化。
- 对每个转写段使用音素识别器和动态时间规整(DTW)进行强制音素对齐,以产生逐词时间戳。

实验结果
研究问题
- RQ1与最先进的 ASR 模型(Whisper 和 wav2vec2.0)相比,WhisperX 在长时段转写和逐词分割上的表现如何?
- RQ2VAD Cut & Merge 预处理对转写质量和吞吐量的影响是什么?
- RQ3不同的 Whisper 和音素模型如何影响跨数据集的逐词分割性能?
- RQ4外部音素对齐能否在最低推理开销下提供可靠的逐词时间戳?
主要发现
- WhisperX 在标准基准测试上显著改进了分词、WER 和转写速度,相对于 Whisper 和 wav2vec2.0。
- VAD Cut & Merge 在批量转写下实现近十二倍速度提升且不牺牲质量。
- 强制音素对齐在最小开销下产生准确的逐词时间戳,并减少相对于仅依赖 Whisper 时间戳的幻觉和重复。
- 更大的 Whisper 模型提升分割指标,音素模型的选择(例如 VoxPopuli 与基于 LibriSpeech 的模型)可能显著影响 AMI/SWB 表现,LibriSpeech 基准的对齐仍然是一个强默认选项。
- 基于 VAD 的分段减少边界效应,避免过度依赖 Whisper 派生的时间戳,从而实现稳健的长时段转写。)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。