Skip to main content
QUICK REVIEW

[论文解读] The Bach Doodle: Approachable music composition with machine learning at scale

Cheng-Zhi Anna Huang, Curtis Hawthorne|arXiv (Cornell University)|Jul 14, 2019
Music and Audio Processing参考文献 32被引用 41
一句话总结

论文提出了 Bach Doodle,一个由 Coconet 提供支持的浏览器内和声化工具,移植到 TensorFlow.js 并带来加速,使用一个约 400 KB 的小模型,以及一个包含 2160 万用户生成和声与 5500 万请求的大规模公开数据集。它还分析平行五度/纯Octaves 以及本地与 TPU 支撑推理之间的部署选择。

ABSTRACT

To make music composition more approachable, we designed the first AI-powered Google Doodle, the Bach Doodle, where users can create their own melody and have it harmonized by a machine learning model Coconet (Huang et al., 2017) in the style of Bach. For users to input melodies, we designed a simplified sheet-music based interface. To support an interactive experience at scale, we re-implemented Coconet in TensorFlow.js (Smilkov et al., 2019) to run in the browser and reduced its runtime from 40s to 2s by adopting dilated depth-wise separable convolutions and fusing operations. We also reduced the model download size to approximately 400KB through post-training weight quantization. We calibrated a speed test based on partial model evaluation time to determine if the harmonization request should be performed locally or sent to remote TPU servers. In three days, people spent 350 years worth of time playing with the Bach Doodle, and Coconet received more than 55 million queries. Users could choose to rate their compositions and contribute them to a public dataset, which we are releasing with this paper. We hope that the community finds this dataset useful for applications ranging from ethnomusicological studies, to music education, to improving machine learning models.

研究动机与目标

  • 展示一个可访问、可扩展的 AI 驱动音乐和声化体验,面向广泛受众。
  • 设计一个基于浏览器的界面,降低使用机器学习进行作曲的门槛。
  • 在网络和云运行时规模化部署并优化神经对位模型(Coconet)。
  • 发布一个大型、公开的用户交互数据集,促进民族音乐学、教育和 ML 提升的研究。

提出的方法

  • 在 TensorFlow.js 中重新实现 Coconet,使其在浏览器中运行并端口到 TPU 服务器以备选计算。
  • 应用扩张深度卷积与逐点卷积融合以降低推理延迟。
  • 通过后训练权重量化将模型权重压缩至 ~400 KB 下载大小。
  • 校准一个基于浏览器的速度测试,以在本地 TF.js 与远程 TPU 之间为和声请求选择。
  • 收集并分析一组用户交互数据集,包括旋律、和声、评分和元数据。

实验结果

研究问题

  • RQ1如何使 Bach 风格的和声模型对大规模浏览器交互足够易用且快速?
  • RQ2哪些界面和交互设计能够让音乐训练程度较低的用户有效输入旋律并获得和声?
  • RQ3在浏览器本地运行 Coconet 与在 TPU 服务器上运行之间,在延迟和用户体验方面有哪些权衡?
  • RQ4该模型在真实世界、多样化的用户群体中的风格保真度(如避免平行五度/纯五度)和用户评价质量表现如何?

主要发现

  • 通过 TF.js 将 Coconet 端口在浏览器中实现约 2 秒的和声化延迟,采用扩张深度可分离卷积与操作融合。
  • 通过后训练权重量化将模型下载大小减小到约 400 KB。
  • 混合执行策略:约 47.4% 的和声在本地运行;剩余请求由 TPU 后端进行服务。
  • 分析的超 2180 万条和声数据显示平行五度(P5)和平行纯五度(P8)每小节分别为 0.365 和 0.391,与输入分布和用户反馈相关。
  • 在 5500 万次请求中,用户生成了 2160 万条唯一序列,分布在 850 万个会话中;53.8% 的和声被评为 Good。
  • 数据集发布(CC 许可)为民族音乐学、教育与 ML 研究应用提供支持。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。