Skip to main content
QUICK REVIEW

[論文レビュー] SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition

Lukas Drude, Jens Heitkaemper|arXiv (Cornell University)|Oct 30, 2019
Speech and Audio Processing参考文献 29被引用数 58
ひとこと要約

SMS-WSJは、ランダムな部屋の幾何学を備えた大規模な多チャネルのWSJベースのシミュレーションデータベースと、マルチスピーカー源分離と認識の完全なベースライン、指標の議論、Kaldi/TDNN-Fのベースラインを導入します。

ABSTRACT

We present a multi-channel database of overlapping speech for training, evaluation, and detailed analysis of source separation and extraction algorithms: SMS-WSJ -- Spatialized Multi-Speaker Wall Street Journal. It consists of artificially mixed speech taken from the WSJ database, but unlike earlier databases we consider all WSJ0+1 utterances and take care of strictly separating the speaker sets present in the training, validation and test sets. When spatializing the data we ensure a high degree of randomness w.r.t. room size, array center and rotation, as well as speaker position. Furthermore, this paper offers a critical assessment of recently proposed measures of source separation performance. Alongside the code to generate the database we provide a source separation baseline and a Kaldi recipe with competitive word error rates to provide common ground for evaluation.

研究の動機と目的

  • WSJの発話を基盤とし、可変現実感をコントロールする乱雑な幾何を持つマルチチャネルのオーバーラップ音声データベースを提示する。
  • マルチチャネル源分離と認識のパフォーマンス指標を批判的に評価する。
  • 公平な比較と再現性を可能にするベースラインBSSパイプラインとASRレシピを提供する。

提案手法

  • WSJ si284、dev93、eval92の発話を8 kHzへダウンサンプリングして、33,561の訓練混合、491の検証、333のテスト混合を構築する。
  • 円形半径10 cmのアレイとランダムな遅延を用いて、部屋サイズ、アレイ位置、話者位置を乱数化し、早口話と後続話の成分を分離するための部屋インパルス応答をシミュレートする。
  • SI-SDR、BSS-Eval SDRなどの複数の SDR バリアントと、PESQ、STOI、WER などの知覚指標を評価して、分離品質と下流の認識を包括的に評価する。
  • マスキングとMVDRビームフォーミングを用いた共分散推定のための歪みマスキングを含む、複雑な Angular Central Gaussian Mixture Model (cACGMM) に基づくソース分離のベースラインを提供する。
  • 初期到着音声イメージを用いた Kaldi ベースの音声認識のベースラインを提供し、early-arriving speech images に基づく TDNN-F アコースティックモデルを訓練して、競争力のあるWERベースラインを実現する。
  • データベース、指標、ベースラインを再現するためのドキュメントとコード(SMS-WSJリポジトリ)が提供されている。

実験結果

リサーチクエスチョン

  • RQ1多様で乱択的な幾何配置の下で、マルチチャネルの遠方話者の音声分離はどのように機能するか。
  • RQ2反響条件下でのマルチチャネルBSSを評価する最も信頼性の高いパフォーマンス指標は何か、どのように解釈すべきか。
  • RQ3実用的なベースラインBSSパイプラインとASRレシピは、SMS-WSJデータで競争力のある性能を達成できるか。
  • RQ4異なるベースライン(マスキング、MVDR、さまざまなビームフォーマ)ik Kaldi ASR設定で、下流のWERにどのような影響を与えるか。

主な発見

  • SMS-WSJデータベースは、ランダムな部屋の幾何とソースを含むWSJ発話に基づく大規模で多様性があり、完全に再現可能なマルチチャネルデータセットを提供し、分離アルゴリズムの評価を堅牢に可能にする。
  • 複数の SDR バリアントと知覚指標は、ソース信号を参照とする BSS-Eval SDR がチャネル選択に対して安定しており、遠方分離の評価にも有用である一方、SI-SDR は短い FIR のような歪みに敏感になり得ることを示している。
  • マスキングとMVDRビームフォーミングを組み合わせた基準 cACGMM は、マスキングのみよりもWERを改善し、空間的クラスタリングとビームフォーミングの利点を示している。
  • ASR アラインメントのために早口話画像を用いると、空間的に混合された話し言葉の存在下での音響モデル訓練が有利になり、Kaldi TDNN-F レシピで競争力のあるWERを達成する。
  • 著者は、WERを含む複数の補完的指標を使用することを推奨し、遠方評価にはSI-SDRよりもソース信号参照付きの BSS-Eval SDR を優先する。
  • 表2は、SMS-WSJ テストセットにおいて MVDR ベースのベースラインがマスキングのみよりもWERを改善することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。