QUICK REVIEW

[论文解读] Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset

Curtis Hawthorne, Andriy Stasyuk|arXiv (Cornell University)|Oct 29, 2018

Music and Audio Processing被引用 149

一句话总结

本论文介绍 Wave2Midi2Wave，一种使用离散音符事件的因式分解管线，用于钢琴音乐建模，借助 MAESTRO 数据集实现长时间尺度的转录、生成与音频合成的长程音乐结构。它还发布 MAESTRO，一个用于训练与评估的大规模对齐音频-MIDI 数据集。

ABSTRACT

Generating musical audio directly with neural networks is notoriously difficult because it requires coherently modeling structure at many different timescales. Fortunately, most music is also highly structured and can be represented as discrete note events played on musical instruments. Herein, we show that by using notes as an intermediate representation, we can train a suite of models capable of transcribing, composing, and synthesizing audio waveforms with coherent musical structure on timescales spanning six orders of magnitude (~0.1 ms to ~100 s), a process we call Wave2Midi2Wave. This large advance in the state of the art is enabled by our release of the new MAESTRO (MIDI and Audio Edited for Synchronous TRacks and Organization) dataset, composed of over 172 hours of virtuosic piano performances captured with fine alignment (~3 ms) between note labels and audio waveforms. The networks and the dataset together present a promising approach toward creating new expressive and interpretable neural models of music.

研究动机与目标

动机：在跨越多时间尺度的钢琴音乐建模中，推动使用离散音符事件作为中间表示。
提出一个因式分解的架构，包括转录、语言建模和有条件的音频合成（Wave2Midi2Wave）。
发布一个大规模、对齐良好的 MAESTRO 数据集，以支持转录、建模和合成任务的监督学习。
展示在 MAPS 上的钢琴转录的最新技术，并展示由 MIDI 数据引导的连贯钢琴生成与合成。

提出的方法

定义一个三组件系统：(i) 将音频映射为符号化 MIDI 音符的编码器（Onsets and Frames 转录）；(ii) 使用基于自注意力的音乐语言模型对 MIDI 音符序列进行建模的先验；(iii) 使用以 MIDI 为条件的 WaveNet 将 MIDI 渲染成音频的解码器。
research_questions
3-5 个论文研究的具体研究问题
1) 能否使用 MIDI 作为中间表示的因式分解管线，在极长时间尺度上再现连贯的钢琴音乐？ 2) 发布一个大规模、对齐良好的 MAESTRO 数据集，是否能实现最先进的转录并有效训练语言模型和合成模型？ 3) 转录或地真 MIDI 条件的 WaveNet 与端到端方法在音频质量上有何比较？ 4) 该框架能否扩展到更长的音乐结构（约 1 分钟左右）并对未见演奏进行泛化？ 5) 该方法是否可以扩展到其他乐器或多乐器设置？
key_findings ab
1) 系统在 MAPS 上实现了基于 Onsets and Frames 的改进的钢琴转录，达到最新水平。 2) 在 MAESTRO 和 MAESTRO-T（转录 MIDI）上训练的 Music Transformer 与验证负对数似然值具有竞争力。 3) 以 MIDI 为条件的 WaveNet 能生成具有高保真度和长程连贯性的音频，包括在年条件条件化下音色的一致性。 4) MAESTRO 包含 172.3 小时对齐的音频-MIDI，覆盖 1184 段落和 430 首作品，可用于训练转录、语言和合成模型。 5) 听感测试显示 Ground/Test 与 Transcribed/Test 的 WaveNet 样本在感知真实感方面与真实录音没有统计学显著差异，表明感知真实度很高。
table_headers:
table_rows:

实验结果

研究问题

RQ11) 能否使用 MIDI 作为中间表示的因式分解管线，在极长时间尺度上再现连贯的钢琴音乐？
RQ22) 发布一个大规模、对齐良好的 MAESTRO 数据集，是否能实现最先进的转录并有效训练语言模型和合成模型？
RQ33) 转录或地真 MIDI 条件的 WaveNet 与端到端方法在音频质量上有何比较？
RQ44) 该框架能否扩展到更长的音乐结构（约 ~1 分钟）并对未见演奏进行泛化？
RQ55) 该方法是否可以扩展到其他乐器或多乐器设置？

主要发现

1) 系统结合转录、语言模型和以 MIDI 条件的 WaveNet，可产生约一分种长度的连贯钢琴音乐。
2) MAESTRO 含有超过 172 小时的对齐音频和 MIDI，对齐精度约为 3 ms。
3) 针对钢琴转录基准（MAPS）在配置设定下，经过修改的 Onsets and Frames 转录模型取得了最先进的结果。
4) 在 MAESTRO 和 MAESTRO-T 上训练的 Music Transformer 取得了具有竞争力的验证负对数似然值。
5) 以 MIDI 为条件的 WaveNet 能再现音色与房间特征，并在听感测试中产生感知上真实的输出。
6) 听感测试显示样本之间存在显著差异，真实录音在感知真实度方面与某些经 MIDI 条件化的 WaveNet 输出相当。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。