[논문 리뷰] ComposerX: Multi-Agent Symbolic Music Composition with LLMs
ComposerX는 낮은 비용으로 단일 에이전트 베이스라인보다 품질과 제어를 향상시키는 다중 에이전트 프레임워크를 사용해 GPT-4-turbo로 협업적으로 다성부 기보를 생성하는 학습 없는(training-free) 프레임워크를 제안한다.
Music composition represents the creative side of humanity, and itself is a complex task that requires abilities to understand and generate information with long dependency and harmony constraints. While demonstrating impressive capabilities in STEM subjects, current LLMs easily fail in this task, generating ill-written music even when equipped with modern techniques like In-Context-Learning and Chain-of-Thoughts. To further explore and enhance LLMs' potential in music composition by leveraging their reasoning ability and the large knowledge base in music history and theory, we propose ComposerX, an agent-based symbolic music generation framework. We find that applying a multi-agent approach significantly improves the music composition quality of GPT-4. The results demonstrate that ComposerX is capable of producing coherent polyphonic music compositions with captivating melodies, while adhering to user instructions.
연구 동기 및 목표
- 상징 음악 생성을 위한 LLM 추론과 음악 지식 활용의 동기를 부여한다.
- 전문 구성요소들(멜로디, 하모니, 악기 편성, 리뷰, 편곡) 간의 협업 구조를 형성하기 위한 다중 에이전트 프레임워크를 도입한다.
- 다중 에이전트 협업이 단일 에이전트 프롬프트 및 기존 모델보다 음악적 품질을 향상시킨다는 것을 입증한다.
- 이 접근법이 학습 없이 작동하고, 데이터 효율적이며, 전통적 상징 음악 생성기와 비교해 비용 효과적임을 보여준다.
제안 방법
- 장르, 템포, 음-key, 화성진행, 멜로디, 리듬, 마디, 보이스, 악기, 스타일, 분위기를 포착하는 고품질 사용자 프롬프트 163개를 선별한다.
- ABC 표기법 생성에서 GPT-4-turbo를 안내하기 위해 롤플레이, Chain-of-Thought(CoT), ICL을 활용한 단일 에이전트 프롬프트를 개발한다.
- Group Leader, Melody Agent, Harmony Agent, Instrument Agent, Reviewer Agent, Arrangement Agent 역할이 포함된 다중 에이전트 파이프라인을 설계한다.
- 초기 작업 계획, 반복적 다듬기, 최종 ABC 표기 배열의 구조화된 커뮤니케이션 패턴을 정의한다.
- ABC 표기법에 대한 In-Context Learning이 포함된 에이전트별 프롬프팅을 활용하고, 환각을 줄이고 표기 정확성을 보장하기 위한 역할별 지시를 추가한다.

실험 결과
연구 질문
- RQ1유사한 프롬프트 하에서 다중 에이전트 GPT-4 기반 시스템이 단일 에이전트 구성보다 더 높은 품질의 상징 음악을 생성할 수 있는가?
- RQ2학습-free 다중 에이전트 접근법이 상징 음악 생성에서 어떤 비용 및 효율성 이점을 가져오는가?
- RQ3멜로디, 하모니, 악기 편성, 리뷰 에이전트 간의 협업이 음악 구조, 일관성, 사용자 프롬프트의 준수에 어떤 영향을 미치는가?
- RQ4다성 보음을 조정하고 종지 해를 달성하는 데 있어 텍스트 기반 ABC 표기법의 한계는 무엇인가?
- RQ5다중 체크포인트에 걸친 청취 평가에서 GPT 구동 작곡이 인간에 가까운 품질에 얼마나 다가갈 수 있는가?
주요 결과
- 다중 에이전트 ComposerX가 주관적 청취 테스트에서 단일 에이전트 기준선보다 음악 품질을 향상시킨다.
- 다중 에이전트 시스템은 더 긴 곡을 생성할 수 있으며, GPT-4-Turbo 다중이 단일 에이전트 기준선보다 훨씬 긴 ABC 문자열을 생성한다.
- 튜링 테스트에서 ComposerX 작곡의 32.2%가 인간 작곡 음악과 구분되지 않아 상당한 인간 유사성을 시사한다.
- 이 접근법은 GPT-4-Turbo 및 다른 체크포인트에서 높은 자동 생성 성공률을 달성한다(예: 한 테스트에서 GPT-4-Turbo의 98.2%).
- 비용은 낮다: 곡당 약 26k 토큰, 곡당 0.8달러 미만, 개발 기간 총 API 지출은 1000달러 미만.
- 주관적 평가에서 다중 에이전트 프롬프트가 품질과 일관성 면에서 다양한 프롏프팅 기법(ICL, CoT, Role, Ori)을 능가한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.