[论文解读] A Universal Music Translation Network
一个通用的编码器-解码器框架,在跨乐器、风格与流派的音乐之间进行翻译,使用具有共享编码器的多域 WaveNet 自编码器和对抗性域混淆,实现即使来自未见域也可在没有成对数据的情况下进行翻译。
We present a method for translating music across musical instruments, genres, and styles. This method is based on a multi-domain wavenet autoencoder, with a shared encoder and a disentangled latent space that is trained end-to-end on waveforms. Employing a diverse training dataset and large net capacity, the domain-independent encoder allows us to translate even from musical domains that were not seen during training. The method is unsupervised and does not rely on supervision in the form of matched samples between domains or musical transcriptions. We evaluate our method on NSynth, as well as on a dataset collected from professional musicians, and achieve convincing translations, even when translating from whistling, potentially enabling the creation of instrumental music by untrained humans.
研究动机与目标
- 激励并展示在无成对数据或文本转录的情况下,跨乐器、风格和流派进行跨域音乐翻译。
- 提出一个单一的通用编码器,将多样化的音乐输入映射到一个与域无关的潜在空间。
- 将域信息解耦以实现高质量翻译,使用多个域特定解码器。
- 表明该方法对未见域具有泛化能力,并对感知和自动评估相对于人类翻译者进行分析。
提出的方法
- 在所有音乐域之间使用一个共享编码器,并配备多个域特定的 WaveNet 解码器。
- 在潜在空间上使用去噪自编码器目标和域混淆对抗损失进行训练,以抑制域特异性编码。
- 通过局部随机音高调制对输入音频进行增强,以促进高级语义表示并减少记忆化。
- 使用以编码器潜在表征为条件的 WaveNet 自回归解码器进行解码,在训练期间使用教师 forcing。
- 推理时,通过将任意域的任意输入传递给目标域对应的解码器和共享编码器来翻译,且不失真。
- 采用交叉熵重构损失和域分类损失进行优化,以强制实现域无关的编码。
实验结果
研究问题
- RQ1单一共享编码器是否能够学习到域不变的表示,足以在没有成对数据的情况下实现多音乐域之间的翻译?
- RQ2未见域(例如哨声)在不重新训练模型的情况下被翻译到目标域的程度如何?
- RQ3增强和域混淆如何影响翻译的质量与忠实度,相较于人类演奏者?
- RQ4潜在空间在跨域中以音乐意义的方式编码音高与音色信息的证据有哪些?
- RQ5翻译过程在混合音源及在自回归解码中维持时间结构的鲁棒性如何?
主要发现
- 该方法在乐器、风格和流派之间实现令人信服的翻译,在某些任务上接近或略微逊于专业音乐家。
- 通用编码器对未见域如哨声具有泛化能力,允许无需域特定再训练的翻译。
- 通过对输入进行局部音高调制的增强以及使用域混淆损失对于训练稳定性和质量至关重要;若去掉它们,消融会发散或训练质量下降。
- 嵌入在跨 NSynth-like 数据中保留音高信息,表明存在有意义的跨域潜在表示。
- 潜在空间中的线性混合产生自然、无缝的语义混合效果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。