[论文解读] Learning to denoise historical music
本文提出了一种基于卷积神经网络(CNN)在短时傅里叶变换(STFT)生成的复数谱图上操作的音频到音频生成模型,用于对历史音乐录音进行去噪。该模型在结合干净音乐与老录音中提取的真实噪声的合成数据集上进行训练,实现了有效的降噪,同时保持了音频质量,其性能通过定量指标和对真实历史录音的人工评估得到验证。
We propose an audio-to-audio generative model that learns to denoise old music recordings. Our model internally converts its input into a time-frequency representation by means of a short-time Fourier transform (STFT), and processes the resulting complex spectrogram using a convolutional neural network. The network is trained with both reconstruction and adversarial objectives on a synthetic noisy music dataset, which is created by mixing clean music with real noise samples extracted from quiet segments of old recordings. We evaluate our method quantitatively on held-out test examples of the synthetic dataset, and qualitatively by human rating on samples of actual historical recordings. Our results show that the proposed method is effective in removing noise, while preserving the quality and details of the original music.
研究动机与目标
- 解决因噪声和生成伪影导致的低质量历史音乐录音恢复挑战。
- 开发一种能够有效去除噪声同时保留原始音乐内容和音色细节的生成模型。
- 通过将干净音乐与从老录音安静部分提取的真实噪声混合,创建逼真的合成噪声数据集。
- 使用重建损失和对抗性损失联合训练神经网络,以提升去噪输出的感知质量。
- 通过人类评估在真实历史录音上的定性测试与在合成测试集上的定量评估,综合评价模型性能。
提出的方法
- 模型通过短时傅里叶变换(STFT)将音频输入转换为复数谱图。
- 卷积神经网络(CNN)处理复数谱图,学习去噪表示。
- 网络采用双重优化目标:重建损失以保持信号保真度,对抗性损失以提升感知质量。
- 训练数据集通过将干净音乐曲目与从历史录音静音部分提取的真实噪声样本混合生成。
- 通过判别式与生成式目标联合优化,实现端到端训练,以增强输出的真实感与降噪能力。
- 网络架构直接处理复数值谱图,保留对音质至关重要的相位与振幅信息。
实验结果
研究问题
- RQ1深度生成模型能否在保留原始音乐内容的同时,有效对历史音乐录音进行去噪?
- RQ2结合重建与对抗性训练相比基线方法,如何提升去噪音频的感知质量?
- RQ3使用历史录音中静音段提取的真实噪声,在多大程度上提升了合成训练数据的真实感与有效性?
- RQ4在训练过程中未见过的真实历史录音上,模型的性能如何,是否经由人类听觉评估验证?
- RQ5在降噪与保留动态范围、音色等精细音频细节之间存在何种权衡?
主要发现
- 在合成数据集的保留测试样本上,模型实现了显著的降噪效果,表现出强大的定量性能。
- 在真实历史录音上的人工评估确认,与基线方法相比,该模型生成的音频在感知上更优。
- 重建与对抗性训练的结合使去噪输出更加自然,失真更少。
- 使用从静音段提取的真实噪声显著提升了合成训练数据的真实感,增强了模型在真实历史录音上的泛化能力。
- 模型在去噪过程中成功保留了动态范围、演奏技巧与音色特征等音乐细节。
- 结果表明,所提方法在恢复历史音频方面有效,且未引入可听失真或音色染色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。