QUICK REVIEW

[論文レビュー] Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model based on BLSTM

Szu‐Wei Fu, Yu Tsao|arXiv (Cornell University)|Aug 16, 2018

Speech and Audio Processing参考文献 22被引用数 21

ひとこと要約

本稿では、継続的で非侵襲的な音声品質評価モデルであるQuality-Netを提案する。このモデルは、双方向LSTM（BLSTM）ネットワークを用い、継続的で非侵襲的な音声品質評価を実現する。クリアなリファレンス信号が不要である。フレームレベルの評価を制約付き学習とフォグレットゲートバイアス初期化を用いることで、ノイズのある音声ではPESQと0.9の相関、強化された音声では0.84の相関を達成し、実世界の音声処理応用分野における大きな可能性を示している。

ABSTRACT

Nowadays, most of the objective speech quality assessment tools (e.g., perceptual evaluation of speech quality (PESQ)) are based on the comparison of the degraded/processed speech with its clean counterpart. The need of a "golden" reference considerably restricts the practicality of such assessment tools in real-world scenarios since the clean reference usually cannot be accessed. On the other hand, human beings can readily evaluate the speech quality without any reference (e.g., mean opinion score (MOS) tests), implying the existence of an objective and non-intrusive (no clean reference needed) quality assessment mechanism. In this study, we propose a novel end-to-end, non-intrusive speech quality evaluation model, termed Quality-Net, based on bidirectional long short-term memory. The evaluation of utterance-level quality in Quality-Net is based on the frame-level assessment. Frame constraints and sensible initializations of forget gate biases are applied to learn meaningful frame-level quality assessment from the utterance-level quality label. Experimental results show that Quality-Net can yield high correlation to PESQ (0.9 for the noisy speech and 0.84 for the speech processed by speech enhancement). We believe that Quality-Net has potential to be used in a wide variety of applications of speech signal processing.

研究の動機と目的

クリアなリファレンス信号を必要としない非侵襲的音声品質評価モデルの開発。
PESQなどの従来の客観的指標が「ゴールデン」リファレンスに依存するという実用的制限の解消。
フレームレベルの予測を用いて、エンドツーエンドで発話レベルのラベルから音声品質を学習する。
クリアなリファレンスが利用できない実世界のシナリオにおいて、音声品質推定のロバスト性と正確性の向上。

提案手法

モデルは、音声フレーム内の長距離依存関係を捉えるために、双方向LSTM（BLSTM）アーキテクチャを用いる。
フレームレベルの品質予測を統合することで、発話全体の品質を推定する。
トレーニング中にフレームレベルの出力が発話レベルの品質ラベルと整合するように、フレーム制約を適用する。
ネットワークが学習の初期段階から意味のある品質表現を学習できるように、フォグレットゲートバイアスを意味のある値で初期化する。
発話レベルの平均意見スコア（MOS）ラベルを教師信号として、エンドツーエンドでモデルをトレーニングする。
アーキテクチャのおかげで、クリアなリファレンス信号を必要とせず、生の劣化音声を直接品質スコアにマッピングする非侵襲的評価が可能になる。

実験結果

リサーチクエスチョン

RQ1クリアなリファレンス信号にアクセスできない状況でも、ディープラーニングモデルが正確に音声品質を予測できるか？
RQ2フレームレベルの品質予測を、どのように効果的に発話レベルの品質ラベルに一致させられるか？
RQ3フォグレットゲートバイアス初期化が、BLSTMベースのモデルにおける意味のある品質表現の学習に与える影響は何か？
RQ4エンドツーエンドの非侵襲的モデルは、実世界の劣化音声に対してPESQとどの程度高い相関を達成できるか？
RQ5提案手法は、再トレーニングなしでノイズのある信号および音声強化信号の両方に対して一般化可能か？

主な発見

Quality-Netは、ノイズのある音声においてPESQと0.9の相関を達成し、劣化信号における優れた性能を示している。
音声強化処理が施された信号においても、PESQと0.84の相関を達成し、処理状態の違いに対して高いロバスト性を示している。
フレーム制約とフォグレットゲートバイアス初期化の導入により、トレーニングの安定性とモデル性能が顕著に向上した。
クリアなリファレンス信号を必要とせず、発話レベルのラベルのみから非侵襲的品質評価を効果的に学習している。
エンドツーエンドのトレーニングでフレームレベルの監視を用いることで、実世界の音声処理応用分野において高品質な予測が得られることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。