[论文解读] DDSP: Differentiable Digital Signal Processing
该论文介绍了 DDSP 库,将可微分的 DSP 组件(振荡器、包络、滤波器和混响)与神经网络集成,以实现高保真音频合成,并具有可解释、模块化的对音高、响度和音色的控制,而无需大量自回归或对抗性训练。
Most generative models of audio directly generate samples in one of two domains: time or frequency. While sufficient to express any signal, these representations are inefficient, as they do not utilize existing knowledge of how sound is generated and perceived. A third approach (vocoders/synthesizers) successfully incorporates strong domain knowledge of signal processing and perception, but has been less actively researched due to limited expressivity and difficulty integrating with modern auto-differentiation-based machine learning methods. In this paper, we introduce the Differentiable Digital Signal Processing (DDSP) library, which enables direct integration of classic signal processing elements with deep learning methods. Focusing on audio synthesis, we achieve high-fidelity generation without the need for large autoregressive models or adversarial losses, demonstrating that DDSP enables utilizing strong inductive biases without losing the expressive power of neural networks. Further, we show that combining interpretable modules permits manipulation of each separate model component, with applications such as independent control of pitch and loudness, realistic extrapolation to pitches not seen during training, blind dereverberation of room acoustics, transfer of extracted room acoustics to new environments, and transformation of timbre between disparate sources. In short, DDSP enables an interpretable and modular approach to generative modeling, without sacrificing the benefits of deep learning. The library is publicly available at https://github.com/magenta/ddsp and we welcome further contributions from the community and domain experts.
研究动机与目标
- 在从经典 DSP 获取强归纳偏见的基础上,推动并实现端到端学习,以用于音频合成。
- 开发一个模块化、可微分的工具包(DDSP),将振荡器、包络、滤波器和混响与神经网络相结合。
- 证明 DDSP 能实现音高和响度的独立控制、对未见音高的外推,以及音色迁移。
- 展示 DDSP 在比自回归或基于 GAN 的基线模型更小的模型下也能实现高质量合成。
提出的方法
- 实现基于振荡器的可微分叠加合成,使用随时间变化的基频 f0(n) 和谐波幅度 A(n),其中 A_k(n)=A(n)c_k(n)。
- 使用包络和平滑将缓慢的神经帧率上采样到音频采样率,同时避免伪影。
- 通过频率采样法设计时变线性相位 FIR 滤波器,每帧由网络预测的传输函数 H_l。
- 将叠加(谐波)与滤波噪声(减法合成)结合,形成谐波+噪声模型。
- 通过频域卷积引入可微分的混响,以建模长脉冲响应。
- 在多个 FFT 尺寸上,使用多尺度谱损失训练自编码器 (L_i = ||S_i - S_i_hat||_1 + alpha ||log S_i - log S_i_hat||_1)。
实验结果
研究问题
- RQ1可微分 DSP 组件是否能够实现端到端学习,以在没有自回归或对抗性损失的情况下进行高保真音频合成?
- RQ2模块化的 DDSP 架构是否允许独立控制音高、响度和音色,同时支持对未见条件的外推?
- RQ3是否可以将房间声学(混响)的显式建模与声源生成分离,以实现盲去混响和环境迁移等任务?
- RQ4基于 DDSP 的紧凑自编码器在质量和效率方面是否可与最先进的神经声码器相竞争?
- RQ5DDSP 组件如何促进可解释且可控的音乐/音频生成?
主要发现
- DDSP 自编码器可以高保真地重新合成独奏小提琴和 NSynth 风格数据,所需的模型比 WaveRNN 和类似基线要小得多。
- 有监督的 DDSP 在 F0 L1 误差上优于 WaveRNN,在 NSynth 上实现了更低的响度误差,相较于对比模型。
- 使用感知性 CREPE 损失的无监督 DDSP 在没有显式音高条件的情况下学习到有意义的 F0 和音色,优于某些基线。
- 通过对 f(t) 和 l(t) 的分离条件化、z(t) 编码音色,演示了对音高和响度的独立控制,插值显示出平滑的感知过渡。
- 通过分离房间冲激响应并对新音频应用学习到的混响,实现去混响和环境迁移,支持盲去混响与环境转移。
- 通过对来自人声的 F0/Loudness 进行条件化、以及来自小提琴录音的混响转移,展示了从歌声到小提琴的音色转移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。