QUICK REVIEW

[논문 리뷰] Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions

Jinchuan Tian, Haoran Wang|arXiv (Cornell University)|2026. 02. 05.

Music and Audio Processing인용 수 0

한 줄 요약

Bagpiper는 8B 오디오 기초 모델로서 풍부한 캡션을 보편적 의미 인터페이스로 활용하여 개방형 오디오 과제를 공동으로 이해하고 생성합니다. 강력한 양방향 오디오-캡션 매핑과 이전 모델에 비해 우수한 생성 능력을 보입니다.

ABSTRACT

Current audio foundation models typically rely on rigid, task-specific supervision, addressing isolated factors of audio rather than the whole. In contrast, human intelligence processes audio holistically, seamlessly bridging physical signals with abstract cognitive concepts to execute complex tasks. Grounded in this philosophy, we introduce Bagpiper, an 8B audio foundation model that interprets physical audio via rich captions, i.e., comprehensive natural language descriptions that encapsulate the critical cognitive concepts inherent in the signal (e.g., transcription, audio events). By pre-training on a massive corpus of 600B tokens, the model establishes a robust bidirectional mapping between raw audio and this high-level conceptual space. During fine-tuning, Bagpiper adopts a caption-then-process workflow, simulating an intermediate cognitive reasoning step to solve diverse tasks without task-specific priors. Experimentally, Bagpiper outperforms Qwen-2.5-Omni on MMAU and AIRBench for audio understanding and surpasses CosyVoice3 and TangoFlux in generation quality, capable of synthesizing arbitrary compositions of speech, music, and sound effects. To the best of our knowledge, Bagpiper is among the first works that achieve unified understanding generation for general audio. Model, data, and code are available at Bagpiper Home Page.

연구 동기 및 목표

개방형 오디오 과제에 대한 보편적이고 전체론적 접근 방식을 촉진하기 위해 이해와 생성을 풍부한 자연어 캡션에 근거해 통합합니다.
풍부한 캡션이 물리적 오디오 신호와 인지적 개념 사이의 양방향 다리를 어떻게 제공하는지 학습합니다.
베이스라인과 비교하여 오디오 이해 및 생성 과제에서 Bagpiper의 사전학습 및 감독 미세조정을 평가합니다.

제안 방법

오디오 및 텍스트 처리를 위해 Qwen-3 패밀리에서 초기화된 Encoder-Adaptor-LLM 아키텍처를 사용합니다.
600B 토큰으로 사전 학습하며 300B 텍스트-오디오 : 150B 오디오-텍스트 : 150B 텍스트 전용 데이터 혼합으로 오디오와 풍부한 캡션 간의 양방향 매핑을 학습합니다.
오디오 클립에 대한 풍부한 캡션을 생성하고 CoT 추론을 포함한 데이터 흐름의 캡션-발생 프로세스를 통해 개방형 작업을 해결하도록 학습합니다.
845k 이해 샘플과 1.47M 생성 샘플을 생성·필터링하는 데이터 수집 및 GEMINI-captioning 파이프라인으로 미세 조정합니다.
오디오 생성을 위한 분류기 자유 가이던스를 적용하고 파형 재구성을 위한 오디오 코덱 토큰 보코더를 사용합니다.
강력한 베이스라인과의 비교를 위해 양방향 매핑 프로브, 사이클 일관성 테스트 및 개방형 작업 벤치마크를 통해 평가합니다.

실험 결과

연구 질문

RQ1풍부한 캡션이 특정 작업 priors 없이도 다양한 개방형 오디오 작업을 이해하고 생성하는 보편적 모델을 가능하게 할 수 있는가?
RQ2오디오 신호와 풍부한 캡션 간의 양방향 매핑이 인식 및 생성 정보를 얼마나 잘 보존하는가?
RQ3사전학습 및 SFT가 작업 특화 모델과 비교하여 오디오 이해 벤치마크 및 생성 품질에서 경쟁력 있는 성능을 가능하게 하는가?

주요 결과

모델	매개변수	WER (↓)	MMAU-Mini (↑)	AIR-Bench-chat	AudioBench
Qwen3-Captioner 30B-A3B	-	5.5	71.1	-	-
Bagpiper-Base 8B	8B	5.0	69.0	-	-
Bagpiper-Base 8B	8B	2.5	74.5	6.57	70.39

Bagpiper-Base (8B) 은 이해도 탐색에서 Qwen3-Captioner (30B)와 매치되며, 오디오와 풍부한 캡션 간의 강한 양방향 번역을 나타냅니다.
Bagpiper-Base는 풍부한 캡션으로 프롬프트될 때 특화된 베이스라인보다 동등하거나 더 나은 오디오 생성 충실도를 보여주며, TTS와 같은 시나리오 및 TTA 시나리오를 포함합니다.
미세 조정된 Bagpiper는 AIR-Bench 및 AudioBench에서 7B Qwen-2.5-Omni를 오픈 엔드 이해에서 능가하고 생성 작업에서도 경쟁력 있는 성능을 유지합니다.
미세 조정 후 오디오 이해에서 Bagpiper는 MMAU-Mini에서 2.5, MMAU-Mini 개방형 평가에서 74.5의 WER을 달성하여 일부 벤치마크의 통합 작업 설정을 능가합니다.
Bagpiper(8B)로 텍스트-음성 변환 생성은 LibriSpeech Test-Clean에서 WER 2.7을 달성하며, 이 설정에서 CosyVoice3를 능가합니다.
Bagpiper는 구문 구성, 다중 화자, 음악, 음향 효과가 풍부한 생성이 가능하도록 하며, 긴 지시 중심 프롬프트에서 베이스라인을 능가합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.