Skip to main content
QUICK REVIEW

[论文解读] MIDI-VAE: Modeling Dynamics and Instrumentation of Music with Applications to Style Transfer

Gino Brunner, Andres Konrad|arXiv (Cornell University)|Sep 20, 2018
Music and Audio Processing参考文献 28被引用 63
一句话总结

MIDI-VAE introduces a shared-latent-space variational autoencoder for polyphonic symbolic music that models dynamics and instrumentation and enables style transfer between genres (e.g., Classical to Jazz) as well as generation, interpolation, and mixtures.

ABSTRACT

We introduce MIDI-VAE, a neural network model based on Variational Autoencoders that is capable of handling polyphonic music with multiple instrument tracks, as well as modeling the dynamics of music by incorporating note durations and velocities. We show that MIDI-VAE can perform style transfer on symbolic music by automatically changing pitches, dynamics and instruments of a music piece from, e.g., a Classical to a Jazz style. We evaluate the efficacy of the style transfer by training separate style validation classifiers. Our model can also interpolate between short pieces of music, produce medleys and create mixtures of entire songs. The interpolations smoothly change pitches, dynamics and instrumentation to create a harmonic bridge between two music pieces. To the best of our knowledge, this work represents the first successful attempt at applying neural style transfer to complete musical compositions.

研究动机与目标

  • 通过利用多声部中的动力学(音符速度、时长)与乐器配备,激励并开发一个神经模型以执行符号音乐的风格迁移。
  • 学习一个紧凑的潜在表示,捕捉多轨音乐的音高、速度和乐器分配的联合分布。
  • 实现对现有作品的风格修改(例如 Classical 转换为 Jazz)同时保持旋律,并促进生成、插值和作品的混合。

提出的方法

  • 三个并行的编码器–解码器对(音高、速度、乐器)共享一个公共潜在空间,以建模多声部音乐的联合分布。
  • 带有 β 加权 KL 项的变分自编码器对潜在向量 z 强制先验,促进解耦。
  • 在最顶层潜在维度上附加一个风格分类器,以编码潜在的风格标签,通过在 z(z_style)中交换风格维度实现风格迁移。
  • 音乐数据被表示为覆盖音轨的钢琴卷帘图,涵盖音高(60 个音高)、速度和乐器卷帘,条定义为一个单位(16 分音符粒度)。
  • 全损失包含音高/音高-音速/乐器重构项、风格预测损失以及 KL 散度项(L_tot = λP H + λI H + λV MSE + λS H + (−β) DKL)。
  • 训练使用基于 GRU 的编码器/解码器,并使用 Adam 优化,在从 MIDI 文件提取的逐小节符号表示上进行训练,数据按流派对(如 Classic–Jazz)进行划分。

实验结果

研究问题

  • RQ1共享潜在空间 VAE 能否捕获多轨符号音乐的联合动态和乐器配置,以实现跨流派的风格迁移?
  • RQ2风格分类器在强制紧凑的潜在风格表示和实现对作品的可控风格迁移方面有多大效果?
  • RQ3MIDI-VAE 在生成、插值、混成及完整音乐作品的混合方面在保持音乐连贯性方面具有怎样的能力?
  • RQ4音高、速度和乐器配置在跨流派成功风格迁徙中的贡献程度如何?

主要发现

  • MIDI-VAE 通过改变音高、动力学和乐器配置来实现风格迁移,将一首作品从一种风格转换到另一种风格,这一点已通过单独的风格分类器得到验证。
  • 模型能够在小节之间进行插值,并生成整首歌曲的混合与混成,音高、动力学和乐器配置具有平滑过渡。
  • 潜在空间分析(如 t-SNE)显示风格的清晰分离(如 Jazz 与 Classical),并揭示与风格以及其他音乐属性(音符计数、音高范围)相关的维度。
  • 音高和速度的变化有助于风格迁移,而乐器变化与流派转变高度对齐;旋律在很大程度上得到保留。
  • 该方法代表对完整音乐作品的早期、未对齐风格迁移应用,且可扩展到用于更长尺度风格特征的分层模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。