QUICK REVIEW
[论文解读] Proceedings of the 18th Sound and Music Computing Conference
Mauro, Davide Andrea, Spagnol, Simone|arXiv (Cornell University)|Jul 1, 2021
Music Technology and Sound Studies被引用 4
一句话总结
本文提出在单通道幅度谱图上训练生成对抗网络(GANs),结合相位梯度堆叠积分(PGHI)进行音频纹理合成,相较于最先进的 IFSpectrogram(幅度 + 瞬时频率)表示方法表现出更优性能,尤其在非音高和噪声类声音(如爆破音和啁啾音)方面表现更佳,同时在音高乐器上保持相近质量,且内存使用量减半。
ABSTRACT
Proceedings of the SMC2021 - 18th Sound and Music Computing Conference, June 29th-July 1st 2021.<br> smc2021conference.org
研究动机与目标
- 解决 IFSpectrogram 表示在合成非音高和噪声类音频纹理方面的局限性。
- 评估基于 PGHI 的相位重建方法从幅度谱图中恢复相位,是否能在基于 GAN 的音频合成中超越 IFSpectrogram。
- 开发一种统一且内存高效的表示方法,适用于包括音高、非音高以及动态复杂声音在内的多种音频纹理。
- 在多种信号类型上,对比基于 PGHI 和 IFSpectrogram 的 GAN 在感知与客观音质上的表现。
提出的方法
- 在单通道对数幅度谱图上训练 GAN,而非使用双通道的 IFSpectrogram(幅度 + 瞬时频率)。
- 利用相位梯度堆叠积分(PGHI)算法,仅从幅度谱图中重建时域信号,利用时间与频率域的相位导数。
- 在 GAN 框架内将 PGHI 作为可微分、非迭代的相位重建方法,以生成高保真音频。
- 采用类似于 GANSynth 的渐进式生长 GAN 架构,实现条件音频生成。
- 通过听音测试和 FAD 指标,在不同帧移大小(64 和 128)下评估感知与客观音质。
- 在相同数据集和模型架构下,将结果与最先进的基于 IFSpectrogram 的 GAN 进行对比。
实验结果
研究问题
- RQ1基于 PGHI 从幅度谱图中重建的音频,在非音高和噪声类音频纹理的感知音质上是否显著优于基于 IFSpectrogram 的合成方法?
- RQ2PGHI 在合成音高乐器声音方面的性能与 IFSpectrogram 相比如何?
- RQ3单通道幅度谱图结合 PGHI 是否能在减少内存使用的同时,实现与双通道 IFSpectrogram 相当或更优的结果?
- RQ4增加谱图冗余度(通过减小帧移)是否能提升 PGHI 相对于 IFSpectrogram 的性能?
主要发现
- 对于噪声爆破音和啁啾音,基于 PGHI 的 GAN 显著提升了感知音质,听者普遍认为 PGHI 明显更优。
- 在 NSynth 数据集中的音高乐器声音上,PGHI 与 IFSpectrogram 在感知音质上几乎无差异,表明对音高声音无性能下降。
- FAD 指标显示,PGHI 生成的音频始终比 IFSpectrogram 生成的音频更接近参考音频,其中爆破音(帧移 64 时 FAD = 0.295)和啁啾音(帧移 64 时 FAD = 0.747)的 FAD 值最小。
- 在帧移为 64 时,PGHI 对非音高和复杂信号的感知优势明显强于帧移为 128 时,表明更高的谱图冗余度可增强 PGHI 的鲁棒性。
- PGHI 方法在音高声音上实现了与 IFSpectrogram 相当的音质,同时仅使用一半内存,这是由于其采用单通道输入表示。
- 本研究证明,结合幅度谱图的 PGHI 方法在多样化音频纹理合成中,比 IFSpectrogram 更具鲁棒性和通用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。