[論文レビュー] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation
論文は、ノイズ多い複数話者混合からターゲット話者を分離・強化するために顔の視覚情報を利用する話者非依存の音声視覚ディープモデルを提案し、大規模な AVSpeech データセットで訓練し、音声のみの方法より優れていることを示す。
We present a joint audio-visual model for isolating a single speech signal from a mixture of sounds such as other speakers and background noise. Solving this task using only audio as input is extremely challenging and does not provide an association of the separated speech signals with speakers in the video. In this paper, we present a deep network-based model that incorporates both visual and auditory signals to solve this task. The visual features are used to "focus" the audio on desired speakers in a scene and to improve the speech separation quality. To train our joint audio-visual model, we introduce AVSpeech, a new dataset comprised of thousands of hours of video segments from the Web. We demonstrate the applicability of our method to classic speech separation tasks, as well as real-world scenarios involving heated interviews, noisy bars, and screaming children, only requiring the user to specify the face of the person in the video whose speech they want to isolate. Our method shows clear advantage over state-of-the-art audio-only speech separation in cases of mixed speech. In addition, our model, which is speaker-independent (trained once, applicable to any speaker), produces better results than recent audio-visual speech separation methods that are speaker-dependent (require training a separate model for each speaker of interest).
研究の動機と目的
- 視覚的手掛かりを活用して、ノイズの多い複数話者の動画における単一話者の声の分離を動機づけ、実現する。
- 話者非依存の AV モデルを訓練するために、大規模な AV 音声データセット(AVSpeech)を導入する。
- 音声と視覚特徴を融合して、可視の各話者ごとに分離した音声ストリームを出力する、マルチストリーム神経ネットワークを開発・訓練する。
- 実世界と合成シナリオにおいて、音声のみの分離および以前の AV 手法より改善を示す。
提案手法
- 検出された各話者に対して、音声スペクトログラムと顔埋め込みを入力としてとるマルチストリーム神経ネットワーク。
- 視覚ストリームはフレームごとの顔埋め込みを拡張畳み込みで処理する; 音声ストリームは STFT 特徴を拡張畳み込みで処理する。
- 音声と視覚特徴の結合を通じて融合し、BLSTMと3層の全結合層を介して、各話者の複素スペクトログラムマスクを出力する。
- マスクは複素比マスク(cRM)または比マスク(RM)であり得る; cRM は通常より良い音声品質をもたらす。
- 訓練はパワー則で圧縮したスペクトログラムに対してL2損失を用いる; ISTFTで波形を再構成する。
- 可視話者の数の変化をサポートし、1,2,3入力ストリーム用の別々のモデルを持つ; 重みはストリーム間で共有される。
実験結果
リサーチクエスチョン
- RQ1背景ノイズを含む単一チャネル混合で、話者非依存の音声視覚モデルは音声のみの分離を上回ることができるか。
- RQ2可視の顔情報を組み込むと、分離された音声とビデオ内の話者の対応付けが改善されるか。
- RQ3入力視覚ストリーム(話者)の数は分離品質にどう影響するか。
- RQ4合成ミックスを超える重なり合う発話とノイズを含む実世界のシーンに対して、モデルは一般化できるか。
主な発見
| Experiment | AO [Yu et al., 2017] | AV - 1 face | AV - 2 faces | AV - 3 faces |
|---|---|---|---|---|
| 1S+Noise | 16.0 | 16.0 | - | - |
| 2S clean | 8.6 | 9.9 | 10.3 | - |
| 2S+Noise | 10.0 | 10.1 | 10.6 | - |
| 3S clean | 8.6 | - | - | 10.0 |
- AVモデルは、合成ミックスの複数タスクで音声のみのベースラインを上回る。
- 2つの可視顔を使用すると、2Sのクリーンタスクで2ストリームの場合の SDR が10.3 dB向上し、より多くのストリームでは僅かな利得。
- 3話者のクリーンミックスは、3つの視覚ストリームで約10 dBの SDR 改善を達成。
- 2話者モデルで2つの入力ストリームは、単一ストリームの AVモデルより約0.4–0.5 dBの追加 SDR 増加を提供。
- 実世界の動画(熱い討論、バー、絶叫する子どもなど)は、ターゲット話者の分離に質的な改善を示すが、リアルタイムではない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。