Skip to main content
QUICK REVIEW

[論文レビュー] Monaural Speech Enhancement with Recursive Learning in the Time Domain

Andong Li, Chengshi Zheng|arXiv (Cornell University)|Mar 22, 2020
Speech and Audio Processing参考文献 25被引用数 1
ひとこと要約

本稿では、パrameter効率性と性能を向上させるために再帰的学習を用いた時域モノラル音声強調ネットワークであるRTNetを提案する。段階的再帰ネットワーク、畳み込み自己符号化器、ゲート付き線形ユニットを統合することで、TIMITコーパスにおいて最先端のベースラインと比較して優れたPESQおよびSTOIスコアを達成した。

ABSTRACT

In this paper, we propose a type of neural network with recursive learning in the time domain called RTNet for monaural speech enhancement, where the proposed network consists of three principal components. The first part is called stage recurrent neural network, which is proposed to effectively aggregate the deep feature dependencies across different stages with a memory mechanism and also remove the interference stageby-stage. The second part is the convolutional auto-encoder. The third part consists of a series of concatenated gated linear units, which are capable of facilitating the information flow and gradually increasing the receptive fields. Recursive learning is adopted to significantly improve the parameter efficiency and therefore, the number of trainable parameters is effectively reduced without sacrificing its performance. The experiments are conducted on TIMIT corpus. Experimental results demonstrate that the proposed network achieves consistently better performance in both PESQ and STOI scores than two advanced time domain-based baselines in different conditions. The code is provided at https://github.com/Andong-Li-speech/RTNet.

研究の動機と目的

  • 既存の時域音声強調ネットワークにおける高いパrameter数と限られた特徴依存性モデリングの課題に対処すること。
  • ネットワーク段階に跨る深い時間的依存性を効果的に捉えることで、音声強調性能を向上させること。
  • 再帰的学習メカニズムを用いてモデルの複雑さを低減しつつ、性能を損なわずに行うこと。
  • エンドツーエンド音声強調アーキテクチャにおける情報伝達と受容 field の拡張を向上させること。

提案手法

  • 提案されたRTNetは、メモリ機構を用いて段階を跨る深層特徴依存性を集約し、段階的に干渉を抑制する段階的再帰ニューラルネットワークを採用している。
  • 入力音声信号の時域におけるコンactな表現を学習するために畳み込み自己符号化器が用いられている。
  • 情報伝達を促進し、段階的に受容 field を拡大するための連結されたゲート付き線形ユニットの系列が導入されている。
  • パラメータ数を減らしながらも性能を維持または向上させるために、ネットワーク全体に再帰的学習が適用されている。
  • 時間領域の損失目的関数を用いて、TIMITコーパス上でエンドツーエンドに訓練されている。
  • モデルは周波数領域変換を回避するために、生波形を直接処理するように設計されている。

実験結果

リサーチクエスチョン

  • RQ1時域ニューラルネットワークにおける再帰的学習は、音声強調性能を劣化させることなくパrameter数を削減できるか?
  • RQ2段階的再帰ネットワークは、モノラル音声強調における長距離時間的依存性をどの程度効果的にモデル化できるか?
  • RQ3ゲート付き線形ユニットと自己符号化器の統合は、特徴表現と強調品質をどの程度向上させるか?
  • RQ4多様なノイズ環境下で、RTNetは最先端の時域ベースラインと比較してPESQおよびSTOIの観点でどの程度優れているか?

主な発見

  • RTNetは、TIMITコーパスにおけるさまざまなノイズ環境下で、2つの先進的な時域ベースラインと比較して一貫して高いPESQスコアを達成した。
  • モデルは優れたSTOIスコアを示し、言語の明瞭性と音質の向上を示している。
  • 再帰的学習の使用により、トレーニング可能なパラメータ数が顕著に削減されたが、高い性能を維持した。
  • 段階的再帰ネットワークは、段階ごとに深層特徴依存性を効果的に捉え、干渉を段階的に抑制した。
  • ゲート付き線形ユニットと自己符号化器の組み合わせにより、情報伝達と受容 field の拡大が向上した。
  • RTNetのコードは、再現性とさらなる研究を目的としてGitHubで公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。