[论文解读] EuleroDec: A Complex-Valued RVQ-VAE for Efficient and Robust Audio Coding
本工作提出 EuleroDec,这是一个全端到端的复数值 RVQ-VAE,用于音频编解码,速率为 6 和 12 kbps,能在没有对抗训练或扩散后滤波的情况下保持幅度-相位耦合。
Audio codecs power discrete music generative modelling, music streaming and immersive media by shrinking PCM audio to bandwidth-friendly bit-rates. Recent works have gravitated towards processing in the spectral domain; however, spectrogram-domains typically struggle with phase modeling which is naturally complex-valued. Most frequency-domain neural codecs either disregard phase information or encode it as two separate real-valued channels, limiting spatial fidelity. This entails the need to introduce adversarial discriminators at the expense of convergence speed and training stability to compensate for the inadequate representation power of the audio signal. In this work we introduce an end-to-end complex-valued RVQ-VAE audio codec that preserves magnitude-phase coupling across the entire analysis-quantization-synthesis pipeline and removes adversarial discriminators and diffusion post-filters. Without GANs or diffusion we match or surpass much longer-trained baselines in-domain and reach SOTA out-of-domain performance. Compared to standard baselines that train for hundreds of thousands of steps, our model reducing training budget by an order of magnitude is markedly more compute-efficient while preserving high perceptual quality.
研究动机与目标
- 在频谱域中动机在于实现稳健的高质量音频编码,同时保持相位信息。
- 开发一个从波形输入到波形重构的全端到端复数值 RVQ-VAE 流水线。
- 在不依赖对抗判别器或扩散后滤波的前提下,保持或超越基线。
- 与长期训练的基线相比,展示训练速度快、稳定并且计算效率显著提高。
提出的方法
- 完全在复数域中操作,使用复数卷积、归一化、激活和注意力。
- 在多个阶段使用具有 2048 条码本的残差向量量化来编码潜在表示。
- 通过处理基于 STFT 的复数谱而不是分解为单独的实值流来保持幅度–相位耦合。
- 应用 2×2 白化和复数轴向注意力以保持 STFT 的代数结构和相位信息。
- 使用 Wirtinger 计算进行训练,避免对抗训练或基于扩散的后滤波,同时实现高感知质量。
实验结果
研究问题
- RQ1一个全端到端的复数值神经编解码器在低比特率下是否能够达到无 GAN 或扩散后滤波的前沿音频质量?
- RQ2在分析–量化–合成过程中保持幅度–相位耦合是否能改善重建保真度和泛化能力?
- RQ3与实值或混合域方法在 6–12 kbps 下相比,复数值 RVQ-VAE 的性能与训练效率有何不同?
主要发现
- 在 6 和 12 kbps 的场景下,在不使用对抗判别器或扩散后滤波的情况下实现了域内和域外的改进。
- 应用具有 2048 条码本和 12 个量化阶段的复数值 RVQ-VAE,实现有效的码本利用率且未坍缩。
- 相比于最先进的基线,展示了更快、更加稳定的收敛并将训练预算降低约 95%。
- 通过整个流水线保持幅度–相位耦合,并使用复数网络与 Wirtinger 计算,保持了高感知质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。