[论文解读] Audio inpainting with generative adversarial network
本文提出了一种双判别器Wasserstein生成对抗网络(D2WGAN),用于填补500–550 ms的长时序音频缺口,通过利用短程和长程音频边界来提升全局连贯性与高频成分的重建质量。与经典WGAN相比,D2WGAN在客观差异评分(ODG)上表现更优,尤其在频谱能量较低、音色动态变化较大的乐器(如吉他和带管弦乐伴奏的独奏钢琴)上优势明显。
We study the ability of Wasserstein Generative Adversarial Network (WGAN) to generate missing audio content which is, in context, (statistically similar) to the sound and the neighboring borders. We deal with the challenge of audio inpainting long range gaps (500 ms) using WGAN models. We improved the quality of the inpainting part using a new proposed WGAN architecture that uses a short-range and a long-range neighboring borders compared to the classical WGAN model. The performance was compared with two different audio instruments (piano and guitar) and on virtuoso pianists together with a string orchestra. The objective difference grading (ODG) was used to evaluate the performance of both architectures. The proposed model outperforms the classical WGAN model and improves the reconstruction of high-frequency content. Further, we got better results for instruments where the frequency spectrum is mainly in the lower range where small noises are less annoying for human ear and the inpainting part is more perceptible. Finally, we could show that better test results for audio dataset were reached where a particular instrument is accompanist by other instruments if we train the network only on this particular instrument neglecting the other instruments.
研究动机与目标
- 解决传统方法在非平稳性和高维性影响下难以处理500–550 ms长时序音频补全的问题。
- 通过在生成器输入中引入短程与长程上下文信息,提升音频质量。
- 探究在仅对特定乐器进行训练而忽略伴奏乐器时,是否能获得更好的泛化能力与感知质量。
- 采用以人类为中心的客观差异评分(ODG)评估模型性能,因为目前尚无可靠的自动化音频补全质量度量指标。
提出的方法
- 提出一种新颖的D2WGAN架构,包含两个判别器:一个聚焦于局部(短程)上下文,另一个聚焦于围绕缺口的全局(长程)上下文。
- 采用波形生成方式,而非基于频谱图或多模态方法,以保留时间域与频谱域的保真度。
- 通过同时依赖邻近波形片段与远距离上下文片段,训练生成器以重建缺失的音频段。
- 在生成器与两个判别器之间构建双玩家极小极大博弈,生成器目标是使两个判别器均无法区分生成音频与真实音频。
- 在WGAN框架中应用梯度惩罚与权重裁剪,以稳定训练过程并提升模式覆盖能力。
- 通过人类评估方式,采用客观差异评分(ODG)作为主要性能评估指标,因目前尚无可靠的自动化音频质量度量方法。
实验结果
研究问题
- RQ1与经典WGAN相比,引入短程与长程上下文信息的双判别器架构是否能提升长时序音频补全性能?
- RQ2在仅对目标乐器进行训练而忽略伴奏乐器的情况下,是否能在混合音频场景中获得更好的感知质量?
- RQ3乐器的频谱特性(如低频与高频成分)如何影响补全音频的感知质量?
- RQ4当模型仅在单一乐器上进行训练时,其在不同乐器与音频数据集上的泛化能力如何,尤其在跨数据集场景下的表现?
- RQ5增加训练步数是否能提升性能而不引起过拟合?模型是否从更长的上下文窗口中获益?
主要发现
- D2WGAN在PIANO、GUITAR、MAESTRO三个数据集上均优于经典WGAN,且在ODG评分上具有统计显著性提升。
- D2WGAN在高频成分重建方面表现更优,尤其对吉他和带管弦乐伴奏的独奏钢琴等乐器具有显著优势。
- 仅在目标乐器(如钢琴)上进行训练并抑制背景管弦乐成分,可提升在混合音频数据集上的表现,表明模型对无关音频内容的干扰具有更强鲁棒性。
- 对于低频谱能量的乐器,D2WGAN表现更优,因小噪声伪影在低频段更不明显,而补全效果更易被察觉。
- 将训练步数增加至140k可进一步提升性能且未出现过拟合,表明模型受益于更长的训练时间,且仍有进一步优化空间。
- D2WGAN的双判别器设计有效利用了局部与全局上下文信息,提升了整体连贯性,减少了长间隙补全中的伪影。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。