[論文レビュー] ComposerX: Multi-Agent Symbolic Music Composition with LLMs
ComposerXは、トレーニング不要のマルチエージェントフレームワークを提案し、GPT-4-turboを用いて協働的に多声符号音楽を生成します。単一エージェントのベースラインより品質と制御性で低コストを実現しています。
Music composition represents the creative side of humanity, and itself is a complex task that requires abilities to understand and generate information with long dependency and harmony constraints. While demonstrating impressive capabilities in STEM subjects, current LLMs easily fail in this task, generating ill-written music even when equipped with modern techniques like In-Context-Learning and Chain-of-Thoughts. To further explore and enhance LLMs' potential in music composition by leveraging their reasoning ability and the large knowledge base in music history and theory, we propose ComposerX, an agent-based symbolic music generation framework. We find that applying a multi-agent approach significantly improves the music composition quality of GPT-4. The results demonstrate that ComposerX is capable of producing coherent polyphonic music compositions with captivating melodies, while adhering to user instructions.
研究の動機と目的
- 象徴音楽生成のためにLLMの推論と音楽知識を活用する動機づけ。
- メロディー、ハーモニー、楽器編成、レビュー、編成といった専門コンポーネント間の協力を構造化するマルチエージェントフレームワークの導入。
- マルチエージェントによる協同が、単一エージェントのプロンプトや既存モデルより音楽品質を向上させることを示す。
- 本手法が従来の象徴音楽生成器と比べてトレーニング不要でデータ効率が良く、費用対効果が高いことを示す。
提案手法
- ジャンル、テンポ、キー、コード進行、メロディ、リズム、バー、声部、楽器、スタイル、ムードを捉えた163件の高品質なユーザープロンプトのセットをキュレーションする。
- 役割演技、CoT、およびICLを用いてGPT-4-turboがABC記譜法を生成するように単一エージェントのプロンプトを開発する。
- Group Leader、Melody Agent、Harmony Agent、Instrument Agent、Reviewer Agent、Arrangement Agentという役割を持つマルチエージェントパイプラインを設計する。
- 初期タスク計画、反復的な洗練、最終的なABC記譜の編成という構造化されたコミュニケーションパターンを定義する。
- ABC記譜のためのインコンテクスト学習を用いたエージェント固有のプロンプティングと、誤認を減らし記譜正確性を確保するための役割特有の指示を採用する。

実験結果
リサーチクエスチョン
- RQ1類似プロンプト下で、マルチエージェントGPT-4ベースのシステムは単一エージェント設定より高品質な象徴音楽を生成できるか?
- RQ2トレーニング不要のマルチエージェント手法による象徴音楽生成でどのようなコストと効率性の利点が生じるか?
- RQ3メロディ、ハーモニー、楽器編成、レビューエージェント間の協力は、音楽構造、一貫性、およびユーザープロンプトへの適合性にどのように影響するか?
- RQ4多声音部の調整と終止の解決を達成するうえで、テキストベースのABC記譜の限界は何か?
- RQ5複数のチェックポイントでリスニングテストにおいて、GPT搭載作曲が人間らしさの品質にどだけ近づくことができるか?
主な発見
- マルチエージェントComposerXは主観的聴取テストで単一エージェントのベースラインを上回る音楽品質を示す。
- マルチエージェントシステムは長い作品を生成でき、GPT-4-Turboマルチは単一エージェントのベースラインよりもずっと長いABC文字列を生成する。
- チューリングテストでは、ComposerXの作品の32.2%が人間が作曲した音楽と区別不能であり、著しく人間らしさを示している。
- 本手法はGPT-4-Turboおよび他のチェックポイントで高い自動生成成功率を達成しており(例:あるテストでGPT-4-Turboは98.2%)、
- コストは低く、1曲あたり約26kトークン、1枚あたり0.8米ドル未満、開発期間中の総API支出は1,000 USD未満。
- 主観的評価は、マルチエージェントプロンプトが品質と一貫性の点で、ICL、CoT、Role、Oriなどのさまざまなプロンプティング手法を上回ることを示している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。