Skip to main content
QUICK REVIEW

[论文解读] Notochord: a Flexible Probabilistic Model for Embodied MIDI Performance

Victor Shepardson, Jack Armitage|arXiv (Cornell University)|Sep 17, 2022
Music Technology and Sound Studies被引用 5
一句话总结

Notochord 是一种用于实时 MIDI 表演的低延迟、概率性深度学习模型,支持对音乐生成进行细粒度、可解释的干预。在 Lakh MIDI 数据集上进行训练,支持多音符、多轨道生成,响应时间低于毫秒级,可通过开源软件和模型检查点实现可调节生成、和声处理、现场编码以及基于似然性的交互界面。

ABSTRACT

Deep learning-based probabilistic models of musical data are producing increasingly realistic results and promise to enter creative workflows of many kinds. Yet they have been little-studied in a performance setting, where the results of user actions typically ought to feel instantaneous. To enable such study, we designed Notochord, a deep probabilistic model for sequences of structured events, and trained an instance of it on the Lakh MIDI dataset. Our probabilistic formulation allows interpretable interventions at a sub-event level, which enables one model to act as a backbone for diverse interactive musical functions including steerable generation, harmonization, machine improvisation, and likelihood-based interfaces. Notochord can generate polyphonic and multi-track MIDI, and respond to inputs with latency below ten milliseconds. Training code, model checkpoints and interactive examples are provided as open source software.

研究动机与目标

  • 设计一种用于 MIDI 序列的深度概率模型,以支持在具身音乐表演中实现实时、低延迟的交互。
  • 在子事件级别支持细粒度、可解释的干预,例如在生成过程中约束音高、时序或动态。
  • 在单一统一的模型主干中支持多样化的交互式音乐功能,如和声处理、即兴创作和现场编码。
  • 弥合传统慢速批量模式 AI 音乐生成与表演所需即时响应之间的差距,确保感知上的响应速度。
  • 提供开源训练代码、模型检查点和交互式示例,以支持可扩展性和社区研究。

提出的方法

  • Notochord 采用基于 RNN 的架构,支持连续时间与动态建模,将音符触发、音符释放和控制器事件视为独立但上下文相关的事件。
  • 采用概率自回归框架,对连续变量使用离散化混合逻辑分布,并采用任意阶数的音符因子分解以提高建模效率。
  • 在 Lakh MIDI 数据集的 100,000 首歌曲上进行训练,以捕捉丰富、氛围化的音乐模式和风格一致性。
  • 通过条件查询支持结构化干预——例如固定音名或时序约束——同时允许其他属性根据上下文进行预测。
  • 通过 OSC 与实时环境(如 SuperCollider 和 TidalCycles)集成,支持现场编码和低延迟的表演交互。
  • 通过暴露模型的概率得分以支持基于似然性的接口,例如用于音高选择或参数调制。

实验结果

研究问题

  • RQ1如何设计一种深度概率模型,以支持响应时间低于 10ms 的实时、低延迟音乐交互?
  • RQ2在不牺牲生成质量的前提下,可在多大程度上将可解释的细粒度干预(如音高或时序约束)嵌入概率序列模型中?
  • RQ3单一统一的模型能否作为多样化交互式音乐任务(如和声处理、即兴创作和现场编码)的灵活骨干架构?
  • RQ4该模型的概率公式如何支持基于似然性或意外程度的新型界面设计?
  • RQ5在具身音乐语境中,使用深度学习模型进行实时 MIDI 生成的实际性能权衡是什么?

主要发现

  • Notochord 实现了低于 10 毫秒的响应延迟,支持感知上即时的交互,适用于具身表演。
  • 该模型支持多音符和多轨道 MIDI 生成,具备上下文感知的条件采样能力,适用于实时控制。
  • 通过条件查询,用户可约束特定属性(如 C 音名、动态 99),而其余属性则根据上下文进行生成。
  • 该模型支持多样化应用,包括实时和声处理、机器即兴创作、使用 TidalCycles 的现场编码,以及基于似然性的音高选择界面。
  • 该系统已成功集成到使用 OSC 和 SuperCollider 的现场编码工作流中,证明其与实时表演环境的兼容性。
  • 开源训练代码、模型检查点和交互式示例已公开,以支持进一步研究与实验。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。