QUICK REVIEW

[論文レビュー] LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech

Fei Yang, Xuanfan Ni|arXiv (Cornell University)|Jan 20, 2026

Speech Recognition and Synthesis被引用数 0

ひとこと要約

LongSpeechは、ASR、翻訳、要約、話者/言語検出、コンテンツ分離、QA、感情分析などの annotation を伴う100,000を超える長尺な長編音声セグメントの大規模マルチタスクベンチマークを導入し、短尺クリップのベンチマークを超えた長編音声の理解と推論を評価することを目的としています。

ABSTRACT

Recent advances in audio-language models have demonstrated remarkable success on short, segment-level speech tasks. However, real-world applications such as meeting transcription, spoken document understanding, and conversational analysis require robust models capable of processing and reasoning over long-form audio. In this work, we present LongSpeech, a large-scale and scalable benchmark specifically designed to evaluate and advance the capabilities of speech models on long-duration audio. LongSpeech comprises over 100,000 speech segments, each approximately 10 minutes long, with rich annotations for ASR, speech translation, summarization, language detection, speaker counting, content separation, and question answering. We introduce a reproducible pipeline for constructing long-form speech benchmarks from diverse sources, enabling future extensions. Our initial experiments with state-of-the-art models reveal significant performance gaps, with models often specializing in one task at the expense of others and struggling with higher-level reasoning. These findings underscore the challenging nature of our benchmark. Our benchmark will be made publicly available to the research community.

研究の動機と目的

長編スピーチベンチマークが、会議の文字起こしや spoken document 理解といった現実世界のタスクを捉える必要性を動機づける。
豊富なマルチタスク注釈を伴う多様なソースからの長尺セグメントを集約するスケーラブルなデータ構築パイプラインを提供する。
長編音声における文字起こし、翻訳、要約、検出、推論、感情分析を評価する統一的なマルチタスクベンチマークを作成する。
最新の音声言語モデルが長編文脈や高レベル推論タスクで抱える制約を明らかにする。

提案手法

多様なソース（LibriSpeech、TED-LIUM、SPGISpeech、VoxPopuli、CommonVoice、AISHELL-2、IWSLT、映画対話合成）から100k以上の長尺音声セグメント（約10分）を集約して、スケーラブルな長編ベンチマークを構築する。
各セグメントを8タスク（ASR、Speech-to-Text Translation、Summarization、Language Detection、Speaker Counting、Content Separation、Question Answering、Emotion Analysis）で注釈づけする。
タスク固有の戦略（話者/話題の一貫性、埋め込みベースのクラスタリング、多言語処理、合成コンテンツ）を用いて、セグメントあたり約600秒を達成し、多様なドメインを確保する。
訓練/開発/テストに統一ディレクトリ構造と7:1.5:1.5の比率で分割し、タスク横断で総計142.2kの訓練例、30.1kの開発例、30.1kのテスト例を用意する。

実験結果

リサーチクエスチョン

RQ1現代の音声言語モデルは、長編音声のコアタスク（ASR、S2T）と高レベル理解タスクでどれだけ良く機能するか。
RQ2統一的でスケーラブルな長編ベンチマークは、短尺クリップ評価のために訓練されたモデルのトレードオフと deficiencies を露呈できるか。
RQ3最先端モデルは長い文脈、多話者、多言語の状況でどの程度一般化できるか。
RQ4長編音声における時間的位置特定、要約の一貫性、コンテンツ分離といった高レベル推論タスクのギャップはどこにあるか。

主な発見

Model	Non-CJK WER ↓	CJK CER ↓	Overall CER ↓	S2TT BLEU ↑
Whisper	0.186	0.385	0.110	—
Kimi-audio	0.542	0.905	0.501	15.81
AudioFlamingo3	1.378	1.501	1.595	0.03
Voxtral	0.228	0.849	0.188	30.20
DashengLM	0.389	0.759	0.311	5.48
Qwen2-Audio	0.298	0.709	0.253	11.39

最先端モデルは明確な専門化を示す：強いASRまたは翻訳能力を持つが両方は不十分で、長文の文脈推論には苦戦する。
Voxtralは評価モデルの中で最も高いS2TT BLEU（30.20）を達成し、翻訳のクロスリンガル転送が良好であることを示すが、他の指標は高レベルタスクで遅れをとる。
ASR/S2TTの性能と高レベル理解（要約、時間的位置特定、感情）は長編音声で未だ満足のいく水準に達しておらず、現行モデルのギャップが顕著。
長編音声における時間的定位とマルチホップ推論は特に難しく、時間追跡タスクで厳密な正確性が低い。
感情分析とコンテンツ分離は限られた精度を示し、長尺の録音を通じて微妙なプロソディとセグメントの一体性をモデルが解釈するのが難しいことを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。