[论文解读] TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer
TimbreTron 将在对数-CQT声谱图上应用图像风格迁移,并使用条件 WaveNet 重建高质量音频,结果表明基于 CQT 的音色迁移在保留内容的同时迁移音色方面优于基于 STFT 的方法。
In this work, we address the problem of musical timbre transfer, where the goal is to manipulate the timbre of a sound sample from one instrument to match another instrument while preserving other musical content, such as pitch, rhythm, and loudness. In principle, one could apply image-based style transfer techniques to a time-frequency representation of an audio signal, but this depends on having a representation that allows independent manipulation of timbre as well as high-quality waveform generation. We introduce TimbreTron, a method for musical timbre transfer which applies "image" domain style transfer to a time-frequency representation of the audio signal, and then produces a high-quality waveform using a conditional WaveNet synthesizer. We show that the Constant Q Transform (CQT) representation is particularly well-suited to convolutional architectures due to its approximate pitch equivariance. Based on human perceptual evaluations, we confirmed that TimbreTron recognizably transferred the timbre while otherwise preserving the musical content, for both monophonic and polyphonic samples.
研究动机与目标
- 将音乐音色迁移作为时频表示上的图像风格迁移问题来激发研究。
- 探索 Constant Q Transform (CQT) 作为一个支持音高等变卷积以进行音色操控的空间。
- 开发一个三阶段的 TimbreTron 流水线:CQT 提取、在 log-CQT 域上的 CycleGAN 基音色迁移,以及 WaveNet 基波形重建。
- 通过人类研究显示,基于 CQT 的 TimbreTron 的音色迁移在感知上优于基于 STFT 的变体。
提出的方法
- 从音频计算对数幅值 CQT 声谱图,并将其视为用于风格迁移的图像。
- 应用带有全声谱判别器、梯度惩罚和恒等损失的 CycleGAN,在 log-CQT 域中进行音色迁移。
- 训练一个 40 层的有条件 WaveNet,以最近邻上采样和 mu-law 量化从生成的 log-CQT 重建波形。
- 在生成音频时使用自回归 WaveNet 配合束搜索,以更好地匹配目标 CQT。
- 可选地以相反顺序生成波形,以减小前向生成过程中的起始相关伪影。
实验结果
研究问题
- RQ1基于 CQT 的表示是否能在保留音高、节奏和响度的同时实现跨乐器的准确音色迁移?
- RQ2在感知质量上,基于 CycleGAN 的 log-CQT 声谱图音色迁移是否优于基于 STFT 的方法?
- RQ3WaveNet 语音合成器从生成的 log-CQT 表示中重建高质量音频的能力如何?
- RQ4TimbreTron 流水线是否能够在乐器对之间以及从 MIDI 到真实世界音频方面实现泛化?
- RQ5CycleGAN 组件的哪些消融会影响音色迁移质量和音乐内容的保持?
主要发现
- TimbreTron 在单声道和多声道情形中都实现了可辨别的音色迁移,同时保留了音乐内容。
- 基于 CQT 的 TimbreTron 在人类研究中显示出相对 STFT 基于变体更好的音色迁移定性结果。
- 消融研究表明,完整声谱判别器、梯度惩罚和恒等损失带来改进。
- CQT 表示使音高迁移和音色操控更可靠,产生的音高置换伪影更少,相较于 STFT。
- 泛化实验表明在 MIDI 数据上训练并在真实音频上测试时仍然存在可行的迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。