QUICK REVIEW

[論文レビュー] Towards Intelligibility-Oriented Audio-Visual Speech Enhancement

Tassadaq Hussain, Mandar Gogate|arXiv (Cornell University)|Nov 18, 2021

Speech and Audio Processing被引用数 7

ひとこと要約

本論文は、音声認識の明瞭さを向上させるために、変更された短時間目的的明瞭度（STOI）指標を損失関数として用いた、新しい音声・映像（AV）音声強調フレームワークを提案する。周波数ドメインの振幅スペクトルに、音声と映像の同時入力を用いて完全畳み込みニューラルネットワーク（FCN）を訓練することで、従来の距離に基づく損失関数（MSE、MAE）および最先端の音声のみのSTOIベースのモデルに比べ、特に未知の話者やノイズを含む不一致テスト条件下で優れた性能を達成した。

ABSTRACT

Existing deep learning (DL) based speech enhancement approaches are generally optimised to minimise the distance between clean and enhanced speech features. These often result in improved speech quality however they suffer from a lack of generalisation and may not deliver the required speech intelligibility in real noisy situations. In an attempt to address these challenges, researchers have explored intelligibility-oriented (I-O) loss functions and integration of audio-visual (AV) information for more robust speech enhancement (SE). In this paper, we introduce DL based I-O SE algorithms exploiting AV information, which is a novel and previously unexplored research direction. Specifically, we present a fully convolutional AV SE model that uses a modified short-time objective intelligibility (STOI) metric as a training cost function. To the best of our knowledge, this is the first work that exploits the integration of AV modalities with an I-O based loss function for SE. Comparative experimental results demonstrate that our proposed I-O AV SE framework outperforms audio-only (AO) and AV models trained with conventional distance-based loss functions, in terms of standard objective evaluation measures when dealing with unseen speakers and noises.

研究の動機と目的

音声品質の最適化に特化した既存の深層学習ベースの音声強調（SE）システムが、明瞭さの最適化に欠けるという限界を是正すること。
実世界の騒音環境において、視覚的情報と明瞭度指向（I-O）損失関数を統合することで、SE性能が向上するかを調査すること。
周波数ドメインにおける新しい音声・映像の深層学習フレームワークを構築・検証すること。このフレームワークでは、変更されたSTOI指標を学習目的として用いる。
音声のみおよび音声・映像両方のSE設定において、I-O損失関数（STOI）と従来の距離に基づく損失関数（MSE、MAE）の性能を比較すること。
標準的な目的的指標を用いて、未観測の話者およびノイズタイプに対する提案モデルの汎化能力を評価すること。

提案手法

音声と映像の両方の入力を用いて、周波数ドメインにおけるノイズあり音声からクリアな音声へのスペクトルマッピングを学習する、U-Netアーキテクチャに基づく完全畳み込みニューラルネットワーク（FCN）を提案する。
音声のスペクトログラムと動画からの顔のランドマーク系列という視覚的情報を、初期統合（early fusion）により連結し、3次元畳み込み層を介して統合する。
従来のSTOI指標を16kHz周波数ドメインの振幅スペクトル上で直接動作可能に変更し、時間ドメインでのダウンサンプリングや無音フレームの除去を不要にする。
訓練が人間の音声明瞭度認識と一致するように、変更されたSTOIを主な損失関数（LSTOI）として用い、AVモデルを訓練する。
同一の条件下で、MSEおよびMAE損失関数で訓練された音声のみ（AO）およびAVモデルと比較して、提案されたSTOIベースのAVモデルの性能を評価する。
GRIDコーパスの2人話者による合成混合音声を、ランダムなSNRを用いて、訓練および評価のためのリアルな騒音環境を模擬する。

実験結果

リサーチクエスチョン

RQ1音声・映像設定において、明瞭度指向の損失関数（変更されたSTOI）は、従来の距離に基づく損失関数（MSE、MAE）よりも音声強調性能を向上させるか？
RQ2I-O損失関数と視覚的情報を統合することで、未観測の話者およびノイズタイプに対する汎化性能が向上するか？
RQ3時間ドメインでの前処理なしに、周波数ドメインの振幅スペクトルに直接適用された変更されたSTOI指標は、学習目的としてどの程度有効か？
RQ4提案されたAV SEフレームワークは、目的的明瞭度および品質指標の観点から、最先端の音声のみおよびAV SEシステムをどの程度上回るか？
RQ5視覚モダリティ情報と組み合わせた場合、STOIを損失関数として用いることで得られる性能向上は、より顕著に現れるか？

主な発見

提案されたSTOIベースのAV SEモデルは、STOIスコアが0.914に達し、次に優れた手法（MAEベースのAV：0.887）およびすべての音声のみベースラインを顕著に上回った。
PESQスコアは3.206、SI-SDRは12.403を記録し、評価されたすべてのフレームワークの中で最高を記録した。これは、優れた音声品質およびノイズ抑制性能を示している。
STOIベースのAVモデルはVISQOLスコアを4.270まで向上させ、他の手法と比較して、より優れた知覚的品質および自然さを示した。
スペクトログラム解析により、STOIベースのAVモデルが、ノイズの強い領域においても低域、ミドル帯、高域の周波数帯域でより多くの音声成分を回復していることが確認された。
ほとんどの指標で優れた性能を示したが、CSIG、CBAK、COVLの指標では、MAEベースのAVモデルにわずかに劣った。これは、知覚的品質の次元における妥協がある可能性を示している。
変更されたSTOI指標は、元のSTOIおよび拡張STOIと高い相関（r > 0.95）を示し、周波数ドメインにおけるAV SEの学習目的としての信頼性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。