QUICK REVIEW

[论文解读] Adversarial Generation of Time-Frequency Features with application in audio synthesis

Andrés Marafioti, Nicki Holighaus|arXiv (Cornell University)|Feb 11, 2019

Music and Audio Processing被引用 28

一句话总结

本文提出TiFGAN，一种通过生成可逆短时傅里叶变换（STFT）特征来合成高质量音频的生成对抗网络，利用精心选择的STFT参数和一种新颖的一致性度量，实现可靠的无相位重建。在感知和数值评估中，其性能均优于最先进的波形级GAN，证明了对抗性时频建模在音频合成中的优越性。

ABSTRACT

Time-frequency (TF) representations provide powerful and intuitive features for the analysis of time series such as audio. But still, generative modeling of audio in the TF domain is a subtle matter. Consequently, neural audio synthesis widely relies on directly modeling the waveform and previous attempts at unconditionally synthesizing audio from neurally generated invertible TF features still struggle to produce audio at satisfying quality. In this article, focusing on the short-time Fourier transform, we discuss the challenges that arise in audio synthesis based on generated invertible TF features and how to overcome them. We demonstrate the potential of deliberate generative TF modeling by training a generative adversarial network (GAN) on short-time Fourier features. We show that by applying our guidelines, our TF-based network was able to outperform a state-of-the-art GAN generating waveforms directly, despite the similar architecture in the two networks.

研究动机与目标

为解决使用神经网络生成可逆时频（TF）特征时音频合成质量低下的挑战。
识别并形式化确保从生成的TF特征可靠实现无相位重建的关键STFT参数选择。
开发一种新颖且计算高效的度量方法，用于在GAN训练过程中评估幅度STFT的质量。
证明时频域的对抗性生成可超越最先进的波形级GAN在音频合成质量上的表现。
为训练稳健的、基于可逆TF的生成模型提供指导方针和工具。

提出的方法

作者设计了TiFGAN，一种直接生成STFT的对数幅度和相位导数特征的GAN，从而实现可逆的音频重建。
基于连续STFT理论和无相位重建原理，推导出STFT参数（如窗长、帧移）的指导原则，以确保信号可恢复。
提出一种新的度量方法，用于评估幅度STFT的结构可靠性，使训练过程中可早期评估重建潜力。
利用时间方向和频率方向的相位导数，提升重建质量，灵感来自近期在相位重建方面的进展。
模型在语音和音乐数据集上端到端训练，重建通过类似Griffin-Lim的算法完成，使用生成的相位导数。
框架包含一个包含6名受试者的感知评估协议和数值指标（IS、FID、RSPE），以验证音频质量。

实验结果

研究问题

RQ1对抗性生成可逆STFT特征是否能产生比直接波形GAN更高质量的音频？
RQ2哪些STFT参数选择能确保从生成特征中可靠地实现无相位音频重建？
RQ3如何在GAN训练过程中度量和监控生成幅度STFT的一致性？
RQ4与直接生成相位相比，相位导数在多大程度上提升了音频重建质量？
RQ5基于TF的GAN是否能在感知和数值评估中均超越最先进的波形级GAN？

主要发现

在听感测试中，TiFGAN-M在94%的比较中优于真实音频，显著优于WaveGAN（仅在94%的比较中被偏好）。
在直接对比中，TiFGAN-M优于WaveGAN和TiFGAN-MTF，分别获得75%和67%的偏好率。
数值指标显示，TiFGAN-M在Inception Score（IS）和Fréchet Audio Distance（FID）上均达到最高，表明其样本质量与分布匹配性更优。
一致性度量成功预测了重建可靠性，真实数据的一致性最高，其次为TiFGAN-M和TiFGAN-MTF。
使用PGHI对生成的相位导数进行相位重建，相对投影误差（RSPE）为-7.5 dB，显著优于直接相位生成，证实了相位导数建模的优势。
尽管性能出色，TiFGAN-MTF在IS和FID指标上与WaveGAN相比表现参差不齐，表明直接相位生成仍是一个有前景但尚未充分探索的方向。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。