[논문 리뷰] LongSpeech: A Scalable Benchmark for Transcription, Translation and Understanding in Long Speech
LongSpeech는 ASR, 번역, 요약, 화자/언어 탐지, 콘텐츠 분리, QA, 감정 분석 등 주석이 달린 100,000개 이상 긴(약 10분) 음성 구간의 대규모 다중 작업 벤치마크를 소개하며 짧은 클립 벤치마크를 넘는 긴 형식 오디오 이해와 추론을 평가하도록 설계되었습니다.
Recent advances in audio-language models have demonstrated remarkable success on short, segment-level speech tasks. However, real-world applications such as meeting transcription, spoken document understanding, and conversational analysis require robust models capable of processing and reasoning over long-form audio. In this work, we present LongSpeech, a large-scale and scalable benchmark specifically designed to evaluate and advance the capabilities of speech models on long-duration audio. LongSpeech comprises over 100,000 speech segments, each approximately 10 minutes long, with rich annotations for ASR, speech translation, summarization, language detection, speaker counting, content separation, and question answering. We introduce a reproducible pipeline for constructing long-form speech benchmarks from diverse sources, enabling future extensions. Our initial experiments with state-of-the-art models reveal significant performance gaps, with models often specializing in one task at the expense of others and struggling with higher-level reasoning. These findings underscore the challenging nature of our benchmark. Our benchmark will be made publicly available to the research community.
연구 동기 및 목표
- 회의 기록 및 구어 문서 이해와 같은 실제 작업을 포착하는 긴 형식 음성 벤치마크의 필요성을 촉구합니다.
- 다양한 소스에서 긴 구간을 모으고 풍부한 다중 작업 주석을 포함하는 확장 가능한 데이터 구성 파이프라인을 제공합니다.
- 긴 오디오에서 전사, 번역, 요약, 탐지, 추론 및 감정 분석을 평가하기 위한 통합된 다중 작업 벤치마크를 만듭니다.
- 최첨단 음성-언어 모델이 긴 형식 맥락과 고차원 추론 과제에서 보이는 한계를 밝힙니다.
제안 방법
- 다양한 소스에서 100k개 이상(약 10분) 긴 음성 구간을 수집하여 확장 가능한 긴 형식 벤치마크를 구축합니다( LibriSpeech, TED-LIUM, SPGISpeech, VoxPopuli, CommonVoice, AISHELL-2, IWSLT, 영화 대화 합성 ).
- 각 구간에 ASR, Speech-to-Text Translation, Summarization, Language Detection, Speaker Counting, Content Separation, Question Answering, Emotion Analysis의 여덟 가지 작업으로 주석을 달습니다.
- 발화자/주제 일관성, 임베딩 기반 클러스터링, 다국어 처리, 합성 콘텐츠 등의 작업 특화 전략으로 데이터를 선별하여 구간당 약 600초에 도달하고 다양한 도메인을 확보합니다.
- 작업을 train/dev/test로 통일된 디렉터리 구조와 7:1.5:1.5 비율로 분할하여 총 142.2k개의 학습 예시, 30.1k의 개발 예시, 30.1k의 테스트 예시를 각 작업에 걸쳐 구성합니다.
실험 결과
연구 질문
- RQ1How well do current audio-language models perform on long-form speech across core tasks (ASR, S2T) and higher-level understanding tasks?
- RQ2Can a unified, scalable long-form benchmark reveal trade-offs and deficiencies in models trained for short-clip evaluation?
- RQ3To what extent do state-of-the-art models generalize across long contexts, multi-speaker, and multilingual scenarios?
- RQ4What are the gaps in higher-level reasoning tasks such as temporal localization, summarization coherence, and content separation in long audio?
주요 결과
| Model | Non-CJK WER ↓ | CJK CER ↓ | Overall CER ↓ | S2TT BLEU ↑ |
|---|---|---|---|---|
| Whisper | 0.186 | 0.385 | 0.110 | — |
| Kimi-audio | 0.542 | 0.905 | 0.501 | 15.81 |
| AudioFlamingo3 | 1.378 | 1.501 | 1.595 | 0.03 |
| Voxtral | 0.228 | 0.849 | 0.188 | 30.20 |
| DashengLM | 0.389 | 0.759 | 0.311 | 5.48 |
| Qwen2-Audio | 0.298 | 0.709 | 0.253 | 11.39 |
- State-of-the-art models show clear specialization: strong ASR or translation capability but not both, and struggle with long-context reasoning.
- Voxtral achieves the highest S2TT BLEU (30.20) among evaluated models, indicating good cross-lingual transfer in translation, but other metrics lag in higher-level tasks.
- ASR/S2TT performance and higher-level understanding (summarization, temporal localization, emotion) remain far from satisfactory on long-form audio, highlighting substantial gaps in current models.
- Temporal localization and multi-hop reasoning over long audio are particularly challenging, with low strict accuracy on temporal tracking tasks.
- Emotion analysis and content separation show limited accuracy, suggesting models struggle to interpret nuanced prosody and segment cohesion over long recordings.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.