[論文レビュー] DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
Phase-aware monaural speech enhancement のための Deep Complex Convolution Recurrent Network (DCCRN) を複素値演算で導入し、小型モデルで強力な PESQ/MOS を達成。
Speech enhancement has benefited from the success of deep learning in terms of intelligibility and perceptual quality. Conventional time-frequency (TF) domain methods focus on predicting TF-masks or speech spectrum, via a naive convolution neural network (CNN) or recurrent neural network (RNN). Some recent studies use complex-valued spectrogram as a training target but train in a real-valued network, predicting the magnitude and phase component or real and imaginary part, respectively. Particularly, convolution recurrent network (CRN) integrates a convolutional encoder-decoder (CED) structure and long short-term memory (LSTM), which has been proven to be helpful for complex targets. In order to train the complex target more effectively, in this paper, we design a new network structure simulating the complex-valued operation, called Deep Complex Convolution Recurrent Network (DCCRN), where both CNN and RNN structures can handle complex-valued operation. The proposed DCCRN models are very competitive over other previous networks, either on objective or subjective metric. With only 3.7M parameters, our DCCRN models submitted to the Interspeech 2020 Deep Noise Suppression (DNS) challenge ranked first for the real-time-track and second for the non-real-time track in terms of Mean Opinion Score (MOS).
研究の動機と目的
- 振幅と位相情報の両方をモデル化する複素値 CRN を活用して音声強化を改善する。
- 知覚品質を維持または向上させつつ、モデルサイズと計算量を削減する。
- 位相認識ターゲットを用いた DNS Challenge のリアルタイムおよび非リアルタイムトラックで優れた性能を示す。
提案手法
- 複素値エンコーダ/デコーダと複素値 LSTM を用いて Deep Complex Convolution Recurrent Network を設計する。
- 複素畳み込み、複素バッチ正規化、そして複素 LSTM を用いて複素値演算を模倣する。
- 複素 CRM または振幅マスクをターゲットとする信号近似損失で訓練し、時間領域で SI-SNR を最適化する。
- WSJ0-simulated データと DNS Challenge データ上で 4つの DCCRN バリアント(R、C、E、CL)とベースライン CRN/DCUNET を比較する。
- 訓練中の波形合成には STFT/iSTFT を用い、損失関数として SI-SNR を用いる。
実験結果
リサーチクエスチョン
- RQ1完全に複素値の CRN は実値または振幅のみのターゲットと比べて位相認識型の音声強化を改善するか。
- RQ2異なる DCCRN のターゲット表現(R、C、E、CL)が客観的指標(PESQ)と主観的指標(MOS)にどのような影響を与えるか。
- RQ3WSJ0 および DNS Challenge データセット全体で、モデルサイズ、リアルタイム性、強化品質のトレードオフはどうなるか。
主な発見
| モデル | パラメータ (M) | 0dB | 5dB | 10dB | 15dB | 20dB | 平均 | |
|---|---|---|---|---|---|---|---|---|
| Noisy | - | - | 2.062 | 2.388 | 2.719 | 3.049 | 3.370 | 2.518 |
| LSTM | 9.6 | - | 2.783 | 3.103 | 3.371 | 3.593 | 3.781 | 3.326 |
| CRN | 6.1 | - | 2.850 | 3.143 | 3.374 | 3.561 | 3.717 | 3.329 |
| DCCRN-R | 3.7 | - | 2.832 | 3.192 | 3.488 | 3.717 | 3.891 | 3.424 |
| DCCRN-C | 3.7 | - | 2.832 | 3.187 | 3.477 | 3.707 | 3.840 | 3.409 |
| DCCRN-E | 3.7 | - | 2.859 | 3.203 | 3.492 | 3.718 | 3.891 | 3.433 |
| DCCRN-CL | 3.7 | - | 2.972 | 3.301 | 3.559 | 3.755 | 3.901 | 3.498 |
| DCUNET | 3.6 | - | 2.971 | 3.297 | 3.556 | 3.760 | 3.916 | 3.500 |
- DCCRN バリアントはシミュレートされた WSJ0 データセットで PESQ において LSTM および CRN のベースラインを上回る。
- DCCRN-E はリアルタイムトラックで強力な DNS Challenge MOS を達成し、非リアルタイムトラックでも良好な性能を示す。DCCRN-CL はさらに PESQ の向上を提供するが、一部クリップで過抑制を招く可能性がある。
- WSJ0 および DNS データ全体で、DCCRN モデルは DCUNET に近い PESQ を達成するが、パラメータ数は大幅に少なく、計算量も低い(DCUNET は DCCRN-CL の約6倍 heavier)。
- DCCRN-E-Aug(再現性の高いリバーブ訓練データを追加)では、残響ケースで段階的な MOS 増加をもたらす。
- 最終主観評価は、DCCRN-E が平均 MOS 約 3.42(no reverb/reverb mix)を達成し、デスクトップ CPU/GPU 環境で 3.12 ms per frame。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。