[论文解读] Generative timbre spaces: regularizing variational auto-encoders with perceptual metrics
本文提出感知正则化变分自编码器(VAE),通过整合音色感知研究中的人类差异性评分,学习音乐音色的连续、可逆潜在空间。通过使用非平稳高斯变换(NSGT)和受t-SNE启发的正则化方法,该模型实现了高保真音频合成、对新型乐器的泛化能力以及基于描述符的路径合成,同时保持了感知关系。
Timbre spaces have been used in music perception to study the perceptual relationships between instruments based on dissimilarity ratings. However, these spaces do not generalize to novel examples and do not provide an invertible mapping, preventing audio synthesis. In parallel, generative models have aimed to provide methods for synthesizing novel timbres. However, these systems do not provide an understanding of their inner workings and are usually not related to any perceptually relevant information. Here, we show that Variational Auto-Encoders (VAE) can alleviate all of these limitations by constructing generative timbre spaces. To do so, we adapt VAEs to learn an audio latent space, while using perceptual ratings from timbre studies to regularize the organization of this space. The resulting space allows us to analyze novel instruments, while being able to synthesize audio from any point of this space. We introduce a specific regularization allowing to enforce any given similarity distances onto these spaces. We show that the resulting space provide almost similar distance relationships as timbre spaces. We evaluate several spectral transforms and show that the Non-Stationary Gabor Transform (NSGT) provides the highest correlation to timbre spaces and the best quality of synthesis. Furthermore, we show that these spaces can generalize to novel instruments and can generate any path between instruments to understand their timbre relationships. As these spaces are continuous, we study how audio descriptors behave along the latent dimensions. We show that even though descriptors have an overall non-linear topology, they follow a locally smooth evolution. Based on this, we introduce a method for descriptor-based synthesis and show that we can control the descriptors of an instrument while keeping its timbre structure.
研究动机与目标
- 通过在共享潜在空间中实现合成与分析,弥合感知音色空间与生成式音频模型之间的差距。
- 通过学习连续、可微的潜在表征,克服传统音色空间缺乏泛化能力和可逆性的局限。
- 在合成过程中实现对音频描述符的控制,同时保持感知平滑性和音色结构。
- 评估并比较频谱变换(STFT、DCT、NSGT)在潜在空间中实现最优重建与感知对齐的效果。
- 展示对训练过程中未见乐器的泛化能力,以及基于目标描述符轨迹的路径合成能力。
提出的方法
- 将VAE适配为使用不同频谱变换作为输入表征,从乐器频谱帧中学习潜在空间。
- 应用一种新颖的感知正则化损失,受t-SNE启发,使潜在空间与来自五项独立音色研究的人类差异性评分对齐。
- 由于NSGT在重建质量与感知相关性方面表现更优,故将其作为最优输入变换。
- 在小规模频谱帧数据集上训练VAE,实现在低资源条件下快速学习,并实现高质量音频生成。
- 引入一种基于描述符的路径合成算法,通过优化潜在点以匹配目标描述符演化路径(如频谱质心、带宽),同时保持局部平滑性。
- 利用学习到的潜在空间对新乐器进行编码,预测其感知相似性,并生成连续的音色演变形态。
实验结果
研究问题
- RQ1能否通过使用感知差异性评分对VAE进行正则化,以创建保留感知关系的生成性音色空间?
- RQ2在所评估的频谱变换(STFT、DCT、NSGT)中,哪一种在潜在空间中实现最佳重建质量与感知对齐?
- RQ3学习到的潜在空间能否泛化到训练过程中未见过的新乐器?
- RQ4传统音频描述符在潜在维度上的行为如何?它们能否用于可控合成?
- RQ5能否通过以目标描述符轨迹引导潜在路径,实现感知平滑的音色过渡?
主要发现
- 非平稳高斯变换(NSGT)在与感知音色空间的相关性方面表现最佳,并在所评估的变换中实现了最高质量的音频合成。
- 感知正则化VAE学习到的潜在空间保留了人类差异性评分中发现的乐器间相对距离关系。
- 该模型通过编码训练过程中未见过的样本,成功实现了对新乐器的泛化,无需额外评分即可预测其感知相似性。
- 尽管全局拓扑结构非线性,音频描述符(如频谱质心和带宽)在潜在维度上仍表现出局部平滑的演化。
- 所提出的基于描述符的路径合成算法成功生成了匹配目标描述符形状的音频路径,同时保持了感知平滑性与音色结构。
- 该方法可在合成过程中对特定音色特性实现控制,从而实现从单一源乐器出发的直观、描述符引导的音频生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。