QUICK REVIEW

[論文レビュー] Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation

Jingjing Chen, Qirong Mao|arXiv (Cornell University)|Jul 28, 2020

Speech and Audio Processing参考文献 32被引用数 36

ひとこと要約

デュアルパス・トランスフォーマー網 (DPTNet) を導入し、エンドツーエンドのモノラル音声分離における直接的な文脈認識モデリングを可能にする。WSJ0-2mix で最先端の結果を達成し、LS-2mix でも高い性能を発揮。

ABSTRACT

The dominant speech separation models are based on complex recurrent or convolution neural network that model speech sequences indirectly conditioning on context, such as passing information through many intermediate states in recurrent neural network, leading to suboptimal separation performance. In this paper, we propose a dual-path transformer network (DPTNet) for end-to-end speech separation, which introduces direct context-awareness in the modeling for speech sequences. By introduces a improved transformer, elements in speech sequences can interact directly, which enables DPTNet can model for the speech sequences with direct context-awareness. The improved transformer in our approach learns the order information of the speech sequences without positional encodings by incorporating a recurrent neural network into the original transformer. In addition, the structure of dual paths makes our model efficient for extremely long speech sequence modeling. Extensive experiments on benchmark datasets show that our approach outperforms the current state-of-the-arts (20.6 dB SDR on the public WSj0-2mix data corpus).

研究の動機と目的

間接的でマルチステージな文脈条件付けではなく、直接的な文脈相互作用を可能にすることによって、モノラル音声分離の改善を動機付ける。
非常に長い音声列を効率的に処理できるエンドツーエンドの時系列ドメインモデルを開発する。
再帰成分を統合して位置エンコーディングなしで順序情報を学習する改良版トランスフォーマーを組み込む。
長い列における局所および全体の依存関係をモデリングするためにデュアルパス構成を活用しつつ、計算的に実現可能な範囲に保つ。

提案手法

Conv-TasNetを模したエンコーダ–セパレーター–デコーダ・フレームワークを使用し、1-D畳み込みエンコーダと転置畳み込みデコーダを採用する。
segmentation を含むデュアルパストランスフォーマー処理段階を導入し、intra-transformer（局所）および inter-transformer（グローバル）ブロックとオーバーラップ-アドを組み込む。
トランスフォーマーのフィードフォワードネットワークの最初の全結合層を再帰的ニューラルネットワークに置換し、位置エンコーディングなしで列の順序を学習する。
intra-および inter-トランスフォーマーのいずれにもマルチヘッド自己注意トランスフォーマーを用い、音声列要素間の直接的な文脈相互作用を実現する。
目的としてスケール不変 SDR (SI-SNR) を最大化するために、パーミュテーション不変トレーニング（uPIT）で訓練する。

実験結果

リサーチクエスチョン

RQ1従来の RNN/CNN ベースのモデルと比較して、トランスフォーマーによる直接的な文脈認識モデリングはエンドツーエンドのモノラル音声分離を改善しますか？
RQ2デュアルパス・トランスフォーマー構造は、分離品質を維持しつつ、非常に長い音声列を効率的にモデリングできますか？
RQ3トランスフォーマーのフィードフォワード网络にRNNを統合して、位置エンコーディングなしで順序情報を学習できますか？
RQ4標準ベンチマーク（WSJ0-2mix および LS-2mix）における DPTNet の、最先端手法に対する比較的な利得はどれですか？

主な発見

手法	SI-SNR	SDR	モデルサイズ
DPCL++	10.8	-	13.6M
uPIT-BLSTM-ST	-	10.0	92.7M
Deep Attractor	10.5	-	-
ADANet	10.4	10.8	9.1M
Grid LSTM PIT	-	10.2	-
ConvLSTM-GAT	-	11.0	-
Chimera++	11.5	12.0	-
WA-MISI-5	12.6	13.1	32.9M
BLSTM-TasNet	13.2	13.6	-
Conv-TasNet-gLN	15.3	15.6	5.1M
Conv-TasNet+MBT	15.5	15.9	-
Deep CASA	17.7	18.0	12.8M
FurcaNeXt	-	18.4	51.4M
DPRNN	18.8	19.0	2.6M
DPTNet	20.2	20.6	2.69M

DPTNet は WSJ0-2mix で 20.2 dB SI-SNR および 20.6 dB SDR を達成し、モデルサイズは 2.69M、従来の最先端を上回る。
LS-2mix では DPTNet が 16.2 dB SI-SNR および 16.8 dB SDR を達成し、ベースライン DSP-TasNet および DPRNN を上回る。
本モデルはデータセットを横断する強い一般化性能を示し、Conv-TasNet および DPRNN を含むベースラインに対して優位性を維持する。
デュアルパス設計は長い列のモデリングを効率化し、直接的な文脈相互作用と計算的実用性のバランスを取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。