[论文解读] Unsupervised Sound Separation Using Mixture Invariant Training
本文介绍 MixIT,一种用于单通道声音分离的完全无监督框架,能够从混合的混合数据中学习,并且可以与监督数据结合用于半监督域自适应。MixIT 在语音任务上实现与有监督方法相竞争的性能,并能够从大量未标记的真实音频数据进行训练。
In recent years, rapid progress has been made on the problem of single-channel sound separation using supervised training of deep neural networks. In such supervised approaches, a model is trained to predict the component sources from synthetic mixtures created by adding up isolated ground-truth sources. Reliance on this synthetic training data is problematic because good performance depends upon the degree of match between the training data and real-world audio, especially in terms of the acoustic conditions and distribution of sources. The acoustic properties can be challenging to accurately simulate, and the distribution of sound types may be hard to replicate. In this paper, we propose a completely unsupervised method, mixture invariant training (MixIT), that requires only single-channel acoustic mixtures. In MixIT, training examples are constructed by mixing together existing mixtures, and the model separates them into a variable number of latent sources, such that the separated sources can be remixed to approximate the original mixtures. We show that MixIT can achieve competitive performance compared to supervised methods on speech separation. Using MixIT in a semi-supervised learning setting enables unsupervised domain adaptation and learning from large amounts of real world data without ground-truth source waveforms. In particular, we significantly improve reverberant speech separation performance by incorporating reverberant mixtures, train a speech enhancement system from noisy mixtures, and improve universal sound separation by incorporating a large amount of in-the-wild data.
研究动机与目标
- 动机:为单通道声音分离提供无监督学习,以克服在合成训练数据中对真实地面真相来源的依赖。
- 介绍 MixIT,一种对混合物不变的训练框架,使用混合物的混合作为参考。
- 在语音分离、语音增强和通用声音分离任务上展示 MixIT。
- 展示将 MixIT 与有监督损失结合进行半监督训练在域自适应中的好处。
提出的方法
- 通过引入 MixIT,将置换不变训练(PIT)推广到无监督混合物上,它将混合物的混合分离成一个更大的潜在源集合。
- 通过将两个或更多未标记的混合物相加来构建 MoMs(混合物的混合),并训练分离模型通过具有二进制列的混合矩阵 A 将估计源重新映射回原始混合物。
- 使用信号级损失(带软阈值的负信噪比)并对 A 进行穷举式二进制搜索,以最小化重新混合的重构损失。
- 可选地在半监督设置中将 MixIT 与有监督的 PIT 结合,在同一训练批次中混合 p% 的有监督数据和 MixIT 的无监督数据。
- 采用时域卷积网络(TD-CN++ 风格),并配备混合一致性投影层,以确保输出之和等于输入混合。
实验结果
研究问题
- RQ1一个完全无监督的训练目标能否在没有地面真相参考的单通道混合物上达到分离性能?
- RQ2当目标域混合物缺乏地面真相源时,MixIT 如何实现域自适应和半监督学习?
- RQ3MixIT 对语音分离、语音增强和通用声音分离任务的影响是什么?
- RQ4将 MixIT 与有限的有监督数据结合,是否能够在实践中达到或接近最先进的有监督方法?
主要发现
- MixIT 允许使用混合物的混合作为参考实现完全无监督的单通道分离,在语音分离任务上达到与有监督方法竞争的性能。
- 混合有监督与 MixIT 损失的半监督训练可提升性能,尤其对域不匹配数据,促进更好的跨域适应。
- 在语音分离、语音增强和通用声音分离方面,MixIT 在域自适应方面显示出显著优势,并且可以利用大量未标记的真实世界数据。
- 在语音增强方面,仅用混合标签训练的基于 MixIT 的模型也取得了可观的 SI-SNRi,接近一个代理任务上完全有监督模型的 76% 。
- 对于通用声音分离,使用 in-the-wild 数据的 MixIT 在若干配置下相较纯监督设置取得了显著改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。