QUICK REVIEW

[論文レビュー] End-to-End Multi-Channel Speech Separation

Rongzhi Gu, Jian Wu|arXiv (Cornell University)|May 15, 2019

Speech and Audio Processing参考文献 23被引用数 80

ひとこと要約

本論文は、STFT/IPDを時間領域の畳み込みカーネルとして再定式化し、それらを学習可能にすることで、データから直接空間特徴を学習するエンドツーエンドの時間領域多チャネル話者分離モデルを提案する。

ABSTRACT

The end-to-end approach for single-channel speech separation has been studied recently and shown promising results. This paper extended the previous approach and proposed a new end-to-end model for multi-channel speech separation. The primary contributions of this work include 1) an integrated waveform-in waveform-out separation system in a single neural network architecture. 2) We reformulate the traditional short time Fourier transform (STFT) and inter-channel phase difference (IPD) as a function of time-domain convolution with a special kernel. 3) We further relaxed those fixed kernels to be learnable, so that the entire architecture becomes purely data-driven and can be trained from end-to-end. We demonstrate on the WSJ0 far-field speech separation task that, with the benefit of learnable spatial features, our proposed end-to-end multi-channel model significantly improved the performance of previous end-to-end single-channel method and traditional multi-channel methods.

研究の動機と目的

遠方場における残響と空間手がかりに対処するためのエンドツーエンドの多チャネル話者分離の動機づけ。
波形入力と波形出力の処理を単一のニューラルネットワーク内で統合。
STFTとIPDを学習可能な時間領域の畳み込みとして再定式化し、エンドツーエンド訓練を可能にする。
WSJ0遠方データにおいて、従来のエンドツーエンド単一チャネル手法および従来の多チャネル手法より性能が向上することを示す。

提案手法

TasNet風の時間領域分離をマルチチャネル入力へ拡張する。
早期・中期・後期結合スキームでクロスドメイン学習を介して周波数領域の空間特徴（IPD）を取り入れる。
STFTとIPDを学習可能なカーネルを持つ畳み込みとして再定式化し、時間領域信号からのIPDのエンドツーエンド学習を可能にする。
SI-SNR損失でエンドツーエンド方式で全体を訓練する。
クロスドメイン学習、並列エンコーダ、学習可能カーネルを用いたエンドツーエンド分離を含む、複数のベースラインと対抗アーキテクチャを評価する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの時間領域多チャネル分離システムは、遠方データにおいて従来の多チャネルスペクトル法と単一チャネルのエンドツーエンドモデルの双方を上回ることができるか？
RQ2単一のネットワーク内で学習可能な時間領域IPDの計算は、空間分離性能を向上させるか？
RQ3時間領域と周波数領域の空間特徴を統合するための異なる結合戦略（早期・中期・後期）の影響は何か？
RQ4WSJ0 2-mixの残響データに対して、エンドツーエンドモデルはクロスドメインおよびカスケード型アプローチとどう比較されるか？

主な発見

学習可能なIPDカーネルとcosIPD/sinIPD特徴を用いたエンドツーエンドのマルチチャネル分離は、WSJ0遠方データで顕著なSI-SNRの改善を達成している。
LPSとIPD特徴を用いたクロスドメイン学習は、単一チャネルTasNetやいくつかの周波数領域ベースラインより性能を向上させる。
固定のSTFT似カーネルは強力な初期IPD表現を提供し、学習可能なカーネル（特にsinIPDを用いるもの）は、試験された構成の中で最良の性能を示す。
提案されたエンドツーエンド手法は、報告された設定で理想的な時間周波数マスク（IBM/IRM/IPSM）を上回る。
大きなチャネル間角度差を持つサンプルでは、 paralle lエンコーダと結合戦略が性能をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。