QUICK REVIEW

[论文解读] Music Style Transfer: A Position Paper

Shuqi Dai, Zheng Zhang|arXiv (Cornell University)|Mar 19, 2018

Music and Audio Processing参考文献 23被引用 25

一句话总结

本文提出了一套结构化的音乐风格迁移框架，通过将音乐风格迁移分解为三个独立任务——音色、表演和创作风格迁移——基于音乐的多层级、多模态表征。该研究主张在深度生成模型中实现内容与风格的无监督解耦，以实现高质量、端到端的跨模态风格迁移，超越对图像风格迁移的简单类比。

ABSTRACT

Led by the success of neural style transfer on visual arts, there has been a rising trend very recently in the effort of music style transfer. However, "music style" is not yet a well-defined concept from a scientific point of view. The difficulty lies in the intrinsic multi-level and multi-modal character of music representation (which is very different from image representation). As a result, depending on their interpretation of "music style", current studies under the category of "music style transfer", are actually solving completely different problems that belong to a variety of sub-fields of Computer Music. Also, a vanilla end-to-end approach, which aims at dealing with all levels of music representation at once by directly adopting the method of image style transfer, leads to poor results. Thus, we vitally propose a more scientifically-viable definition of music style transfer by breaking it down into precise concepts of timbre style transfer, performance style transfer and composition style transfer, as well as to connect different aspects of music style transfer with existing well-established sub-fields of computer music studies. In addition, we discuss the current limitations of music style modeling and its future directions by drawing spirit from some deep generative models, especially the ones using unsupervised learning and disentanglement techniques.

研究动机与目标

通过识别其核心子问题，解决‘音乐风格迁移’概念模糊且缺乏科学定义的问题。
阐明当前方法因‘音乐风格’概念定义不清，而将不同计算机音乐子领域的问题混淆在一起。
提出一个精确、多层级的音乐风格迁移分类法——音色、表演和创作风格，与既有的计算机音乐研究保持一致。
倡导在深度生成模型中实现内容与风格的无监督解耦，作为实现高质量风格迁移的关键推动力。
引导未来研究朝向科学可行、端到端、跨模态的音乐风格迁移系统发展。

提出的方法

将音乐风格迁移分解为三个独立任务：音色风格迁移（声音质感与乐器品质）、表演风格迁移（速度、力度、触键）和创作风格迁移（旋律、和声、曲式）。
将每种子类型映射到计算机音乐中成熟的子领域：音色对应声音合成，表演对应表现力演奏建模，创作对应算法作曲。
提出使用深度生成模型——尤其是变分自编码器（VAEs）和生成对抗网络（GANs）——结合无监督解耦，从原始音乐数据中学习内容与风格因子。
通过潜在空间解耦，从源作品中提取风格编码，并将其迁移至另一作品的内容序列中。
采用两步生成流程：首先从源作品中解耦风格，然后利用保持结构与旋律完整性的序列模型，将风格编码与内容序列重新组合。
在优化过程中集成模板匹配或结构约束，以在风格迁移过程中保持音乐连贯性。

实验结果

研究问题

RQ1鉴于音乐风格具有多层级和多模态的特性，如何以科学严谨的方式精确定义‘音乐风格’？
RQ2为何直接将图像神经风格迁移方法应用于音乐时会失败，而这些方法在图像迁移中却有效？
RQ3现有计算机音乐子领域（如算法作曲、表现力演奏、声音合成）在多大程度上可以被统一到一个连贯的音乐风格迁移框架之下？
RQ4解耦表征学习在实现高质量、可控的音乐风格迁移中扮演何种关键角色？
RQ5当前音乐建模的关键局限是什么？无监督解耦技术如何改善这些问题？

主要发现

当前的‘音乐风格迁移’研究因‘音乐风格’概念定义不清，实际上在解决根本不同的问题，导致文献中产生混淆。
将基于图像的神经风格迁移方法直接迁移到音乐领域会失败，因为音乐具有复杂且多层级的表征（乐谱、声音、演奏控制），而图像则不具备这种复杂性。
音色、表演和创作风格迁移这三个独立类别分别对应成熟的计算机音乐领域，应被分别处理。
在深度生成模型（如VAEs、GANs）中进行解耦表征学习是实现有效风格迁移的关键，因为它可实现内容与风格的自动分离。
早期的创作风格迁移尝试效果有限，主要因为对音乐结构和和弦进行语法建模不足，尤其在巴赫式风格之外表现更差。
最具前景的发展路径是通过无监督解耦实现端到端、跨模态的风格迁移，从而在无需人工风格标注的情况下，实现灵活且高质量的风格迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。