QUICK REVIEW

[論文レビュー] AI song contest: Human-AI co-creation in songwriting

Cheng-Zhi Anna Huang, Hendrik Vincent Koops|arXiv (Cornell University)|Oct 11, 2020

Music Technology and Sound Studies参考文献 51被引用数 15

ひとこと要約

本論文は、13組のミュージシャン／開発者チーム（合計61名）を対象に、機械学習モデルを用いた楽曲共同制作における人間とAIの協働を調査し、成功した協働にはモジュラーなAIワークフロー、広範なサンプルのキュレーション、および適応的なモデル管理が不可欠であることを明らかにした。主な貢献は、芸術的表現を強化するために、より分解可能で、制御可能で、解釈可能で、適応可能なAI音楽インターフェースの設計ニーズを同定することにある。

ABSTRACT

Machine learning is challenging the way we make music. Although research in deep generative models has dramatically improved the capability and fluency of music models, recent work has shown that it can be challenging for humans to partner with this new class of algorithms. In this paper, we present findings on what 13 musician/developer teams, a total of 61 users, needed when co-creating a song with AI, the challenges they faced, and how they leveraged and repurposed existing characteristics of AI to overcome some of these challenges. Many teams adopted modular approaches, such as independently running multiple smaller models that align with the musical building blocks of a song, before re-combining their results. As ML models are not easily steerable, teams also generated massive numbers of samples and curated them post-hoc, or used a range of strategies to direct the generation or algorithmically ranked the samples. Ultimately, teams not only had to manage the ``flare and focus'' aspects of the creative process, but also juggle that with a parallel process of exploring and curating multiple ML models and outputs. These findings reflect a need to design machine learning-powered music interfaces that are more decomposable, steerable, interpretable, and adaptive, which in return will enable artists to more effectively explore how AI can extend their personal expression.

研究の動機と目的

機械学習モデルを用いて楽曲を共同制作する際、ミュージシャンや開発者が直面する課題と戦略を理解すること。
ユーザーがAIモデルの特性をどのように適応・再利用して、クリエイティブなワークフローを支援しているかを特定すること。
芸術的表現をより効果的につなげるために、モularity、解釈可能性、制御可能性を備えたAI音楽インターフェースの設計要件を明らかにすること。
クリエイティブな「閃き」と「集中」の両立と、複数のAIモデルや出力の技術的探求との相互作用を検討すること。

提案手法

13組のミュージシャン／開発者チームを対象に、合計61名の参加者を対象とした定性的研究を実施し、AI支援による楽曲制作に従事した。
チームが、楽曲の構成要素（例：メロディ、歌詞、和声）に一致するように設計された、複数の小型AIモデルを用いたモジュラーな手法を採用しているのを観察した。
制御性が限られているため、チームが多数のAIサンプルを生成し、後からキュレーションすることで、高品質な出力を選別している様子を追跡した。
生成を誘導する戦略や、アルゴリズム的に出力をランク付けする方法を分析し、関連性や品質の向上を図った。
クリエイティブな探求と技術的モデル評価の両方を管理するパターンを特定するために、ユーザーのワークフローをマッピングした。

実験結果

リサーチクエスチョン

RQ1人間とAIのチームは、楽曲制作において、クリエイティブな探求と的確な精錬のバランスをどのように管理しているか？
RQ2現在の機械学習音楽モデルの制御性が限られている状況において、ユーザーはどのような戦略を採用しているか？
RQ3チームは、楽曲構成の要素に一致させるために、複数のAIモデルをどのように構造化し、統合しているか？
RQ4後から行われるキュレーションは、最終的な音楽的出力にどのような役割を果たしているか？
RQ5人間とAIの協働制作を効果的に行うために、AI音楽インターフェースに不可欠な設計的特徴は何か？

主な発見

多くのチームが、歌詞、メロディ、和声といった異なる音楽的要素に別々のAIモデルを用いるモジュラーなワークフローを採用していた。
モデルの制御性が限られているため、チームは多数のサンプルを生成し、高品質な出力を選別するために、手動またはアルゴリズム的なキュレーションに大きく依存していた。
ユーザーは頻繁に複数のモデルと出力を並列で扱っており、この複雑さを効果的に管理できるツールの必要性が浮き彫りになった。
クリエイティブなプロセスでは、「閃き」（探求）と「集中」（精錬）のバランスが求められ、多様なAI生成出力を探索・評価する必要があるため、複雑さが増していた。
チームは、技術的制限を補うために、モデルの既存の特徴を革新的に再利用しており、例えば非目的のタスクにモデルを再利用するなどした。
これらの発見は、芸術家の個人的な表現を支援するために、より分解可能で、制御可能で、解釈可能で、適応可能なAI音楽インターフェースの強力なニーズを浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。