[论文解读] AI song contest: Human-AI co-creation in songwriting
本文通过13支音乐人/开发人员团队(共61名用户)研究了人机协同创作歌曲的过程,揭示出成功的协作依赖于模块化的AI工作流、大量样本的整理以及自适应的模型管理。其核心贡献在于识别出更可分解、可调控、可解释且可自适应的AI音乐界面的设计需求,以增强艺术表达。
Machine learning is challenging the way we make music. Although research in deep generative models has dramatically improved the capability and fluency of music models, recent work has shown that it can be challenging for humans to partner with this new class of algorithms. In this paper, we present findings on what 13 musician/developer teams, a total of 61 users, needed when co-creating a song with AI, the challenges they faced, and how they leveraged and repurposed existing characteristics of AI to overcome some of these challenges. Many teams adopted modular approaches, such as independently running multiple smaller models that align with the musical building blocks of a song, before re-combining their results. As ML models are not easily steerable, teams also generated massive numbers of samples and curated them post-hoc, or used a range of strategies to direct the generation or algorithmically ranked the samples. Ultimately, teams not only had to manage the ``flare and focus'' aspects of the creative process, but also juggle that with a parallel process of exploring and curating multiple ML models and outputs. These findings reflect a need to design machine learning-powered music interfaces that are more decomposable, steerable, interpretable, and adaptive, which in return will enable artists to more effectively explore how AI can extend their personal expression.
研究动机与目标
- 理解音乐人和开发人员在与机器学习模型协同创作歌曲时面临的挑战与策略。
- 识别用户如何调整和再利用AI模型特性以支持创意工作流程。
- 揭示支持艺术表达的AI音乐界面的设计需求,包括模块化、可解释性和可调控性。
- 考察创意中的“火花与专注”与对多个AI模型及输出的技术探索之间的相互作用。
提出的方法
- 对13支音乐人/开发人员团队开展定性研究,共61名参与者,进行AI辅助歌曲创作。
- 观察团队采用模块化方法,运行多个小型AI模型,分别对应音乐构建模块(如旋律、歌词、和声)。
- 追踪团队生成大量AI样本,并因模型可调控性有限而进行事后样本整理。
- 分析引导生成及算法排序输出的策略,以提升相关性与质量。
- 映射用户工作流程,识别在管理创意探索与技术模型评估方面的模式。
实验结果
研究问题
- RQ1人机协作团队如何在歌曲创作中平衡创意探索与专注精炼?
- RQ2用户采用哪些策略来弥补当前机器学习音乐模型可调控性有限的缺陷?
- RQ3团队如何构建并组合多个AI模型以匹配音乐创作的各个组成部分?
- RQ4事后样本整理在塑造最终音乐输出中发挥什么作用?
- RQ5AI音乐界面应具备哪些设计特征,以有效支持人机协同创作?
主要发现
- 许多团队采用了模块化工作流,使用独立的AI模型处理歌词、旋律和和声等不同音乐元素,之后再整合。
- 由于模型可调控性有限,团队生成了大量样本,并严重依赖人工或算法方式筛选高质量输出。
- 用户经常并行处理多个模型和输出,表明需要更优的工具来管理这种复杂性。
- 创意过程需要在‘火花’(探索)与‘专注’(精炼)之间取得平衡,而这一平衡因需探索和评估多样化的AI生成选项而变得复杂。
- 团队创新性地利用现有模型特性,例如将模型用于非预期任务,以克服技术限制。
- 研究结果凸显出对更可分解、可调控、可解释且可自适应的AI音乐界面的强烈需求,以支持艺术家的个性化表达。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。