Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Sound Separation Using Mixture Invariant Training

Scott Wisdom, Efthymios Tzinis|arXiv (Cornell University)|Jun 23, 2020
Speech and Audio Processing参考文献 48被引用数 91
ひとこと要約

この論文は MixIT を導入する。MixIT は混合物の混合物から学習する、単一チャネル音響分離の完全に教師なしのフレームワークであり、半教師ありドメイン適応のために教師付きデータと組み合わせることができる。 MixIT は音声タスクで教師あり法と競合する性能を達成し、野外の大量のラベルなし音声からの学習を可能にする。

ABSTRACT

In recent years, rapid progress has been made on the problem of single-channel sound separation using supervised training of deep neural networks. In such supervised approaches, a model is trained to predict the component sources from synthetic mixtures created by adding up isolated ground-truth sources. Reliance on this synthetic training data is problematic because good performance depends upon the degree of match between the training data and real-world audio, especially in terms of the acoustic conditions and distribution of sources. The acoustic properties can be challenging to accurately simulate, and the distribution of sound types may be hard to replicate. In this paper, we propose a completely unsupervised method, mixture invariant training (MixIT), that requires only single-channel acoustic mixtures. In MixIT, training examples are constructed by mixing together existing mixtures, and the model separates them into a variable number of latent sources, such that the separated sources can be remixed to approximate the original mixtures. We show that MixIT can achieve competitive performance compared to supervised methods on speech separation. Using MixIT in a semi-supervised learning setting enables unsupervised domain adaptation and learning from large amounts of real world data without ground-truth source waveforms. In particular, we significantly improve reverberant speech separation performance by incorporating reverberant mixtures, train a speech enhancement system from noisy mixtures, and improve universal sound separation by incorporating a large amount of in-the-wild data.

研究の動機と目的

  • 単一チャネル音響分離の教師なし学習を動機づけ、合成データの真の音源への依存を克服する。
  • Mixture-invariant training フレームワーク MixIT を導入し、混合物の混合物を参照として用いる。
  • 音声分離・音声強調・普遍的な音響分離タスクで MixIT を実証する。
  • MixIT を教師付き損失と組み合わせた半教師付きトレーニングのドメイン適応への利点を示す。

提案手法

  • PIT(Permutation Invariant Training)を拡張して、監視されない混合物上で動作させる MixIT を導入し、混合物の混合をより大きな潜在源の集合に分離する。
  • MoMs(mixtures of mixtures)を、2つ以上のラベルなし混合を和算して構築し、推定源を元の混合物へ再写像するよう、列が二値の混合行列 A を介して分離モデルを訓練する。
  • 信号レベルの損失(しきい値付きの負の SNR)を用い、再混合した再構成損失を最小化するために A に対して全探索の二値探索を行う。
  • 任意で、半教師付き設定で MixIT を監督付き PIT と組み合わせ、同じトレーニングバッチ内で p% の監督付きデータと MixIT の教師なしデータを混合する。
  • ミキシング整合性投影層を備えた時系列ドメインの畳み込みネットワーク(TD-CN++ スタイル)を採用し、出力が入力混合物の総和になるようにする。

実験結果

リサーチクエスチョン

  • RQ1完全に教師なしのトレーニング目的で、基礎音源を持たずに単一チャネル混合物から分離性能を得られるか?
  • RQ2ターゲットドメインの混合物が真の音源を欠く場合、MixIT はどのようにドメイン適応と半教師付き学習を可能にするのか?
  • RQ3音声分離・音声強調・普遍的な音響分離タスクに対する MixIT の影響は?
  • RQ4MixIT を限定的な監督付きデータと組み合わせることで、実務上の最先端の教師付き法と同等の性能に近づくか、あるいは超えられるか?

主な発見

  • MixIT は混合物の混合物を参照として使用する完全に教師なしの単一チャネル分離を可能にし、音声分離タスクで教師あり法と競合する性能を達成する。
  • 監督付き損失と MixIT 損失を混合した半教師付きトレーニングは、特にドメインが不一致のデータで性能を改善し、クロスドメイン適応を促進する。
  • 音声分離・強調・普遍的な音響分離の各領域で、MixIT はドメイン適応に強い恩恵を示し、ラベルなしの実世界データを大量に活用できる。
  • 音声強調では、混合物ラベルのみで訓練した MixIT ベースのモデルが、有意な SI-SNRi を達成し、代理タスクで完全に監視されたモデルの約 76% に迫る。
  • 普遍的な音響分離では、野外データを用いた MixIT は、いくつかの設定で純粋な監督付き構成より意味のある改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。