Skip to main content
QUICK REVIEW

[논문 리뷰] Voices of Civilizations: A Multilingual QA Benchmark for Global Music Understanding

Shangda Wu, Ziya Zhou|arXiv (Cornell University)|2026. 02. 28.
Music and Audio Processing인용 수 0
한 줄 요약

VoC는 전체 길이 음악에서 오디오 LLM의 문화적 이해를 평가하는 최초의 다국어 QA 벤치마크로, 380곡, 38개 언어, 1,190개의 질문이 있으며, 대표되지 않는 전통에서의 격차를 강조합니다.

ABSTRACT

We introduce Voices of Civilizations, the first multilingual QA benchmark for evaluating audio LLMs' cultural comprehension on full-length music recordings. Covering 380 tracks across 38 languages, our automated pipeline yields 1,190 multiple-choice questions through four stages - each followed by manual verification: 1) compiling a representative music list; 2) generating cultural-background documents for each sample in the music list via LLMs; 3) extracting key attributes from those documents; and 4) constructing multiple-choice questions probing language, region associations, mood, and thematic content. We evaluate models under four conditions and report per-language accuracy. Our findings demonstrate that even state-of-the-art audio LLMs struggle to capture subtle cultural nuances without rich textual context and exhibit systematic biases in interpreting music from different cultural traditions. The dataset is publicly available on Hugging Face to foster culturally inclusive music understanding research.

연구 동기 및 목표

  • 현대의 오디오 LLM이 언어에 걸친 전체 길이 음악 녹음에서 문화적 속성을 어떻게 이해하는지 평가합니다.
  • 지역, 분위기, 주제를 다루는 다국어, 문화 중심의 QA 벤치마크를 만듭니다.
  • 편향과 맥락 의존성을 연구하기 위해 자동 생성과 수동 검증이 결합된 데이터셋을 제공합니다.

제안 방법

  • 네 단계의 자동화 파이프라인: 곡 선택, 원어 및 영어로 된 맥락/문서 생성, 속성 추출(지역, 분위기, 주제), 그리고 객관식 문항 구성.
  • Gemini 2.5 Pro를 사용하여 이중 언어 맥락 문서와 문항을 생성합니다.
  • 노이즈, 영어로 된 Audio QA, 곡 언어로 된 Audio, 그리고 Audio + Doc의 네 설정에서 모델을 평가합니다.
  • 언어별 정확도를 보고하고, 언어 간 문화 이해 및 텍스트 맥락 효과를 분석합니다.
Figure 1 : Example questions from the Voices of Civilizations benchmark on three folk songs—Arabic "Jafra," Chinese "Liuyang River", and Korean "Arirang."
Figure 1 : Example questions from the Voices of Civilizations benchmark on three folk songs—Arabic "Jafra," Chinese "Liuyang River", and Korean "Arirang."

실험 결과

연구 질문

  • RQ1오디오만을 사용하여 전체 길이 음악에서 문화적 속성(지역, 분위기, 주제)을 오디오만으로 정확하게 식별할 수 있습니까?
  • RQ2배경 텍스트 맥락 제공이 언어와 전통에 걸친 성능에 어떤 영향을 미칩니까?
  • RQ3모델이 고자원 언어 또는 잘 대표된 문화에 대해 체계적인 편향을 보입니까?
  • RQ4언어 매칭(질문 언어 대 곡 언어)이 교차 언어 이해에 미치는 영향은 무엇입니까?

주요 결과

  • 오디오에서의 언어 식별은 설정 전반에서 일반적으로 모델에게 쉽고(>85% 정확도)입니다.
  • 지역, 분위기, 주제 이해는 오디오만으로는 제한적이며 언어 식별보다 정확도가 훨씬 낮습니다.
  • 배경 문서를 제공하면 성능이 극적으로 향상되며, 일부 모델은 여러 설정에서 거의 완벽한 점수에 근접합니다.
  • 언어 간 성능은 매우 불균일하며, 자원이 풍부한 언어가 더 높은 점수를 받고 자원이 적은 전통은 급격한 하락을 보입니다.
  • Audio+Doc 설정에서 가장 큰 이득이 나타나며, 오디오 기반의 문화적 추론보다 텍스트 맥락에 의존하는 경향을 강조합니다.
  • 모델은 여전히 대표된 문화에 대한 편향을 드러내며, 더 다양하고 포괄적인 학습 데이터의 필요성을 강조합니다.
Figure 2 : Per-language accuracy (%) of three state-of-the-art audio LLMs on the VoC benchmark using audio input only and focusing on region, mood, and theme questions. We invited a Chinese music teacher to answer 29 questions across 10 Chinese songs in a strictly closed-book setting (no reference o
Figure 2 : Per-language accuracy (%) of three state-of-the-art audio LLMs on the VoC benchmark using audio input only and focusing on region, mood, and theme questions. We invited a Chinese music teacher to answer 29 questions across 10 Chinese songs in a strictly closed-book setting (no reference o

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.