QUICK REVIEW

[論文レビュー] LibriMix: An Open-Source Dataset for Generalizable Speech Separation

Joris Cosentino, Manuel Pariente|arXiv (Cornell University)|May 22, 2020

Speech and Audio Processing参考文献 31被引用数 183

ひとこと要約

LibriMixは、LibriSpeechに由来するノイズあり/なしの二-speakerおよび三-speakerの混合データをオープンソースとして提供し、音声分離における一般化の向上を図る。クロスデータセット評価と希薄に重なるテストセットを含む。

ABSTRACT

In recent years, wsj0-2mix has become the reference dataset for single-channel speech separation. Most deep learning-based speech separation models today are benchmarked on it. However, recent studies have shown important performance drops when models trained on wsj0-2mix are evaluated on other, similar datasets. To address this generalization issue, we created LibriMix, an open-source alternative to wsj0-2mix, and to its noisy extension, WHAM!. Based on LibriSpeech, LibriMix consists of two- or three-speaker mixtures combined with ambient noise samples from WHAM!. Using Conv-TasNet, we achieve competitive performance on all LibriMix versions. In order to fairly evaluate across datasets, we introduce a third test set based on VCTK for speech and WHAM! for noise. Our experiments show that the generalization error is smaller for models trained with LibriMix than with WHAM!, in both clean and noisy conditions. Aiming towards evaluation in more realistic, conversation-like scenarios, we also release a sparsely overlapping version of LibriMix's test set.

研究の動機と目的

WSJ0-2mixで訓練されたモデルの一般化のギャップを、より多様なオープンソースデータセットを提供することによって解消する。
LibriMixを、LibriSpeechからWHAM!ノイズを用いて現実的な評価を可能にするクリーン/ノイジーな二-および三-speaker混合として作成する。
実世界の会話を模倣するため、VCTKベースのテストセットと希薄に重なるテストセットを追加し、公平なクロスデータセット評価を可能にする。
オープンソースの生成スクリプトを提供し、Conv-TasNetを用いて一般化の改善を示す。

提案手法

LibriSpeechとWHAM!ノイズからLibriMixデータセットを構築し、クリーンおよびノイジー条件下で二-speakerおよび三-speaker混合を生成する。
単純な信号パワーベースのSNRではなく、LUFSベースのラウドネス正規化を混合のスケーリングに用いる。
複数話者の発話をランダムに混ぜて、訓練・開発・テストセットを生成する。訓練セットは広い話者ベースを持つ。
Conv-TasNet（Asteroid実装経由）をLibriMix上で評価し、異なる採聴率とモード（min/max）で理想マスク（IRM/IBM）と比較する。
重複度を変化させたSparseLibriMixバリアントを導入し、希薄に重なる混合での性能を検討する。

実験結果

リサーチクエスチョン

RQ1LibriMixは、WHAM!およびwsj0-2mixと比較して、VCTK-2mixなど他データセットへの深層音声分離モデルの一般化を改善するか？
RQ2LibriMixとWHAM!で訓練した場合、クリーン条件とノイズ条件は一般化にどのような影響を与えるか？
RQ3二-および三-speaker混合における分離性能へ、混合の重複と希薄性が与える影響は何か？
RQ4LibriMixは信頼できるクロスデータセット評価を可能にし、三-speakerノイズ分離をサポートできるか？

主な発見

Dataset/Mode	Input	IRM	IBM	Conv-TasNet
2spk-C	8k min	0.0	12.9	13.7	14.7
2spk-C	16k max	0.0	14.1	14.5	16
2spk-N	8k min	-2.0	12	12.6	12
2spk-N	16k max	-2.8	13.4	13.7	13.5
3spk-C	8k min	-3.4	13.1	13.9	12.1
3spk-C	16k max	-3.7	14.5	14.9	13
3spk-N	8k min	-4.4	12.6	13.3	10.4
3spk-N	16k max	-5.2	14.1	14.4	10.9

Conv-TasNetはLibriMixで競争力のSI-SDRの改善を達成し、いくつかのクリーン/ノイズの二-speakerケースで理想マスクを上回るか、同等にする。
LibriMixで訓練したモデルはWHAM!で訓練したモデルよりVCTK-2mixへ一般化が良く、クロスデータセット一般化が改善されていることを示す。
LibriMixはより良い一般化にはtrain-360の方がtrain-100よりデータ量が多く必要であることを示しており、データ量が鍵となる要因を強調している。
三-speaker混合は依然として課題で、オラクル（IRM/IBM）が多くのケースでConv-TasNetを上回っており、特にノイズ環境で顕著である。
SparseLibriMixの結果は、重複が高いほどSI-SDRiが低下し、低重複域ではConv-TasNetがIRMに敗れることがあり、希薄に重なるシナリオでの改善余地を示唆している。
Libri3Mixは三-speakerノイズ分離を可能にする初のオープンソースデータセットであり、二-speakerケースを超えた評価を拡張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。