QUICK REVIEW

[论文解读] Jukebox: A Generative Model for Music

Prafulla Dhariwal, Heewoo Jun|arXiv (Cornell University)|Apr 30, 2020

Music and Audio Processing参考文献 73被引用 108

一句话总结

Jukebox 引入分层 VQ-VAE 加自回归 Transformer，用原始音频生成高保真含歌唱的音乐，可通过艺术家、风格和歌词进行控制，且在数分钟内保持连贯。

ABSTRACT

We introduce Jukebox, a model that generates music with singing in the raw audio domain. We tackle the long context of raw audio using a multi-scale VQ-VAE to compress it to discrete codes, and modeling those using autoregressive Transformers. We show that the combined model at scale can generate high-fidelity and diverse songs with coherence up to multiple minutes. We can condition on artist and genre to steer the musical and vocal style, and on unaligned lyrics to make the singing more controllable. We are releasing thousands of non cherry-picked samples at https://jukebox.openai.com, along with model weights and code at https://github.com/openai/jukebox

研究动机与目标

解决原始音频音乐生成中的长期连贯性。
用分层 VQ-VAE 将原始音频压缩为离散码。
使用 Transformer 对离散码建模自回归先验。
通过条件信号（艺术家、风格、歌词）实现可控生成。
展示跨多种风格和演唱风格的生成能力，并发布样本/代码。

提出的方法

三层 VQ-VAE 将 44 kHz 的音频压缩为离散码，跳跃长度为 8、32 和 128，码本大小为 2048。
使用可扩展的 Transformer 在离散码上训练自回归先验（顶层和放大器/上采样器）。
将先验条件化为元数据（艺术家、风格、时序），对于歌词，使用带有对歌词标记注意力的编码器-解码器结构。
使用谱损失和随机重启来提高码本使用率和重建保真度。
为每一层训练独立的自编码器，以在每个压缩阶段最大化信息保留。
提供上采样器，在更高层到更低层逐步重建音频，并以上层码为条件。

实验结果

研究问题

RQ1单一系统是否能够跨风格生成多样化且高保真的原始音频带歌唱的音乐？
RQ2分层 VQ-VAE 加自回归先验是否能捕捉跨越数分钟的长程音乐结构？
RQ3条件信号（艺术家、风格、时序、歌词）在引导生成和改善声乐对位上的有效性如何？
RQ4模型规模和训练数据对不同风格下歌唱可懂度与音色的影响何在？
RQ5采样策略（祖先采样、滑窗、预置）如何影响输出的一致性和多样性？

主要发现

该模型能够跨摇滚、嘻哈、爵士等风格生成多分钟级别连贯的歌曲。
对艺术家、风格和时序的条件化降低了熵并实现风格特定的生成；歌词条件化使输出可实现歌唱。
提升模型容量以及 44 kHz 的 VQ-VAE 配合大型上采样器可提高保真度和歌唱清晰度，尽管在没有歌词条件化时对可辨认词语的歌唱仍具挑战。
采样方法（祖先、滑窗、预置）实现可控生成与从现有音频片段的续写。
该方法在许多样本中产生连贯的和声和自然的韵律，并在再演绎、完成和新风格/新声音中观察到多样性和新颖性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。