QUICK REVIEW

[論文レビュー] RemixIT: Continual self-training of speech enhancement models via bootstrapped remixing

Efthymios Tzinis, Yossi Adi|arXiv (Cornell University)|Feb 17, 2022

Speech Recognition and Synthesis参考文献 71被引用数 45

ひとこと要約

RemixIT は、事前学習済みの教師モデルから得られる疑似推定音声およびノイズを並べ替え・再混合することで、自己教師ありの継続的自己訓練フレームワークを提供する音声強調手法であり、ドメイン内クリアな音声やノイズデータへの依存を排除する。複数のデータセットで最先端の性能を達成しており、DNSでは7.3 dBのSI-SDRi、WHAM!では6.9 dBを記録し、ドメイン内クリアなターゲットが一切不要であることを示し、ゼロショットドメイン適応の強力さと、動的疑似ターゲットの最適化を伴う教師-生徒蒸留による継続的改善を実証している。

ABSTRACT

We present RemixIT, a simple yet effective self-supervised method for training speech enhancement without the need of a single isolated in-domain speech nor a noise waveform. Our approach overcomes limitations of previous methods which make them dependent on clean in-domain target signals and thus, sensitive to any domain mismatch between train and test samples. RemixIT is based on a continuous self-training scheme in which a pre-trained teacher model on out-of-domain data infers estimated pseudo-target signals for in-domain mixtures. Then, by permuting the estimated clean and noise signals and remixing them together, we generate a new set of bootstrapped mixtures and corresponding pseudo-targets which are used to train the student network. Vice-versa, the teacher periodically refines its estimates using the updated parameters of the latest student models. Experimental results on multiple speech enhancement datasets and tasks not only show the superiority of our method over prior approaches but also showcase that RemixIT can be combined with any separation model as well as be applied towards any semi-supervised and unsupervised domain adaptation task. Our analysis, paired with empirical evidence, sheds light on the inside functioning of our self-training scheme wherein the student model keeps obtaining better performance while observing severely degraded pseudo-targets.

研究の動機と目的

既存の音声強調手法が訓練にドメイン内クリア音声またはノイズデータを必要としているという制限に対処すること。
真のクリア信号にアクセスできない状況でも、ドメイン内ノイズ混在音声へのデータ効率的かつ継続的な適応を可能にする自己教師あり学習フレームワークの開発。
事前学習済みのドメイン外教師モデルからの疑似ラベルを活用することで、ゼロショットおよび半教師あり設定におけるドメインシフト問題を克服すること。
外部モodalitiyやドメイン内データに依存せず、ドメイン内ノイズ混在音声とドメイン外ノイズ源のみを用いて、強力でスケーラブルなドメイン適応を実現すること。

提案手法

ドメイン外（OOD）データで事前学習された教師モデルが、ドメイン内ノイズ混在音声に対して推論を実行し、疑似推定された音声成分およびノイズ成分を生成する。
推定された音声およびノイズ成分をバッチ内でランダムに並べ替え、再混合して新たなブートストラップ済み混在音声を作成し、生徒モデルの拡張訓練データとして使用する。
生徒モデルは、教師の疑似推定クリア音声を回帰対象とする信号レベルの損失関数（例：SI-SDR）を用いて学習させ、自己教師あり学習を実現する。
教師モデルは、ランニング平均または逐次更新プロトコルを用いて生徒の重みを定期的に更新することで、疑似ラベルの継続的最適化を可能にする。
拡張機能として、ベルヌーイ採番戦略を用いてドメイン内ノイズ記録と教師の推定値を混合することで、さらなる性能向上を実現する。
フレームワークは、無教師および半教師あり学習をサポートしており、任意の分離モデルアーキテクチャと互換性を持つ。

実験結果

リサーチクエスチョン

RQ1自己訓練フレームワークは、ドメイン内クリア音声またはノイズ波形を一切必要とせずに最先端の音声強調性能を達成できるか？
RQ2疑似ターゲットが著しく劣化している状況下で、教師と生徒モデル間の継続的かつ双方向の知識蒸留が、性能向上にどのように寄与するか？
RQ3教師が推定した成分のブートストラップ再混合が、現実のノイズ混在音声におけるドメインシフトに対してどれほど一般化可能か？
RQ4ドメイン内ノイズ混在音声とドメイン外データのみを用いて、効果的なゼロショットおよび半教師ありドメイン適応を達成できるか？
RQ5ブートストラップ再混合プロセスにドメイン内ノイズ記録を統合すると、性能にどのような影響を与えるか？

主な発見

RemixIT は、ドメイン内クリアデータを一切使用せずにDNSテストセットで7.3 dBのSI-SDRiを達成し、初期のOOD教師（6.1 dB）および最先端のベースラインを上回った。
WHAM!データセットでは、ドメイン内混在音声とOOD教師推定値のみを用いた半教師あり設定で6.9 dBのSI-SDRiを達成し、先行する自己教師あり手法を上回った。
DNS、LFSD、WHAM!など複数のデータセットで一貫した性能向上を示し、弱いOOD教師から出発しても同様の効果を確認した。
ブートストラップ再混合プロセスにドメイン内ノイズ記録を統合することでさらなる性能向上が得られ、DNSではSI-SDRiが6.1 dBから6.4 dBに、WHAM!では8.6 dBから9.0 dBに上昇した（ドメイン内ノイズと混在音声の量が等しい場合）。
実験的および理論的分析により、極めてノイジーな疑似ターゲットを用いても、生徒モデルが継続的に改善することが確認され、自己訓練ダイナミクスの強靭性が裏付けられた。
限られたドメイン内データがある状況でも、教師-生徒ベースの手法は、監視ありベースラインと同等の性能を達成でき、効果的なゼロショットおよび半教師ありドメイン適応を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。