QUICK REVIEW

[论文解读] Notochord: a Flexible Probabilistic Model for Embodied MIDI Performance

Victor Shepardson, Jack Armitage|arXiv (Cornell University)|Sep 17, 2022

Music Technology and Sound Studies被引用 5

一句话总结

Notochord 是一种用于实时 MIDI 表演的低延迟、概率性深度学习模型，支持对音乐生成进行细粒度、可解释的干预。在 Lakh MIDI 数据集上进行训练，支持多音符、多轨道生成，响应时间低于毫秒级，可通过开源软件和模型检查点实现可调节生成、和声处理、现场编码以及基于似然性的交互界面。

ABSTRACT

Deep learning-based probabilistic models of musical data are producing increasingly realistic results and promise to enter creative workflows of many kinds. Yet they have been little-studied in a performance setting, where the results of user actions typically ought to feel instantaneous. To enable such study, we designed Notochord, a deep probabilistic model for sequences of structured events, and trained an instance of it on the Lakh MIDI dataset. Our probabilistic formulation allows interpretable interventions at a sub-event level, which enables one model to act as a backbone for diverse interactive musical functions including steerable generation, harmonization, machine improvisation, and likelihood-based interfaces. Notochord can generate polyphonic and multi-track MIDI, and respond to inputs with latency below ten milliseconds. Training code, model checkpoints and interactive examples are provided as open source software.

研究动机与目标

设计一种用于 MIDI 序列的深度概率模型，以支持在具身音乐表演中实现实时、低延迟的交互。
在子事件级别支持细粒度、可解释的干预，例如在生成过程中约束音高、时序或动态。
在单一统一的模型主干中支持多样化的交互式音乐功能，如和声处理、即兴创作和现场编码。
弥合传统慢速批量模式 AI 音乐生成与表演所需即时响应之间的差距，确保感知上的响应速度。
提供开源训练代码、模型检查点和交互式示例，以支持可扩展性和社区研究。

提出的方法

Notochord 采用基于 RNN 的架构，支持连续时间与动态建模，将音符触发、音符释放和控制器事件视为独立但上下文相关的事件。
采用概率自回归框架，对连续变量使用离散化混合逻辑分布，并采用任意阶数的音符因子分解以提高建模效率。
在 Lakh MIDI 数据集的 100,000 首歌曲上进行训练，以捕捉丰富、氛围化的音乐模式和风格一致性。
通过条件查询支持结构化干预——例如固定音名或时序约束——同时允许其他属性根据上下文进行预测。
通过 OSC 与实时环境（如 SuperCollider 和 TidalCycles）集成，支持现场编码和低延迟的表演交互。
通过暴露模型的概率得分以支持基于似然性的接口，例如用于音高选择或参数调制。

实验结果

研究问题

RQ1如何设计一种深度概率模型，以支持响应时间低于 10ms 的实时、低延迟音乐交互？
RQ2在不牺牲生成质量的前提下，可在多大程度上将可解释的细粒度干预（如音高或时序约束）嵌入概率序列模型中？
RQ3单一统一的模型能否作为多样化交互式音乐任务（如和声处理、即兴创作和现场编码）的灵活骨干架构？
RQ4该模型的概率公式如何支持基于似然性或意外程度的新型界面设计？
RQ5在具身音乐语境中，使用深度学习模型进行实时 MIDI 生成的实际性能权衡是什么？

主要发现

Notochord 实现了低于 10 毫秒的响应延迟，支持感知上即时的交互，适用于具身表演。
该模型支持多音符和多轨道 MIDI 生成，具备上下文感知的条件采样能力，适用于实时控制。
通过条件查询，用户可约束特定属性（如 C 音名、动态 99），而其余属性则根据上下文进行生成。
该模型支持多样化应用，包括实时和声处理、机器即兴创作、使用 TidalCycles 的现场编码，以及基于似然性的音高选择界面。
该系统已成功集成到使用 OSC 和 SuperCollider 的现场编码工作流中，证明其与实时表演环境的兼容性。
开源训练代码、模型检查点和交互式示例已公开，以支持进一步研究与实验。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。