Skip to main content
QUICK REVIEW

[論文レビュー] Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

Fadi Biadsy, Ron J. Weiss|arXiv (Cornell University)|Apr 8, 2019
Speech Recognition and Synthesis参考文献 32被引用数 19
ひとこと要約

Parrotronは、中間表現を経由せずに、任意の入力音声スペクトログラムをターゲットスピーカーのスペクトログラムに直接変換するエンドツーエンドの音声対音声変換モデルを提案する。聴覚障害者向けの音声の明瞭性と自然さを顕著に向上させ、音声分離においても優れた性能を示し、ノイズの強い入力に対して17.3%のWERを達成する。

ABSTRACT

We describe Parrotron, an end-to-end-trained speech-to-speech conversion model that maps an input spectrogram directly to another spectrogram, without utilizing any intermediate discrete representation. The network is composed of an encoder, spectrogram and phoneme decoders, followed by a vocoder to synthesize a time-domain waveform. We demonstrate that this model can be trained to normalize speech from any speaker regardless of accent, prosody, and background noise, into the voice of a single canonical target speaker with a fixed accent and consistent articulation and prosody. We further show that this normalization model can be adapted to normalize highly atypical speech from a deaf speaker, resulting in significant improvements in intelligibility and naturalness, measured via a speech recognizer and listening tests. Finally, demonstrating the utility of this model on other speech tasks, we show that the same model architecture can be trained to perform a speech separation task

研究の動機と目的

  • 中間の離散的表現を経由せずに、任意のスピーカーの音声を標準化されたターゲットボイスに変換するエンドツーエンドの音声対音声変換モデルを開発すること。
  • 聴覚障害者の特徴的な音声の明瞭性と自然さを、ボイス正規化によって向上させること。
  • 同じアーキテクチャが重なった音声混合物における音声分離に適応可能かどうかを評価すること。
  • 発話内容を保持しつつ、発音の特徴やプロソディ、話者識別子といった非言語的属性を除去する能力を示すこと。
  • 合成ターゲットやマスキングベースの手法に依存せずに、未学習の話者に対する一般化性能を評価すること。

提案手法

  • モデルは、シーケンス・ツー・シーケンス構造と自己注意機構を備えたエンコーダ・デコーダ構造を採用し、入力および出力としてロギング・メルスペクトログラムを処理する。
  • エンコーダは、バッチ正規化とダウンサンプリングを伴う2層の2次元畳み込み層に続き、双方向CLSTMおよび双方向LSTM層を含む。
  • デコーダは、エンコーダの隠れ状態に対するアテンションを用いて、自己回帰的にターゲットスペクトログラムを生成し、マルチタスク学習により別途訓練された発音子デコーダを備える。
  • 音声変換器により、予測されたスペクトログラムから最終的な時間領域波形を合成し、音声生成を可能にする。
  • 音声分離のため、最大8人の話者の人工混合音声データセット上でファインチューニングを行い、ランダムな混合係数と正規化ゲインを適用する。
  • モデルは、混合音声からクリアなターゲット発話の再構成を学習し、ホールドアウトテストセット上でASRのWERを用いて評価する。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドの音声対音声変換モデルは、多様な音声入力を一貫した標準話者の声に正規化しつつ、言語的コンテンツを保持できるか?
  • RQ2同じモデルアーキテクチャが、話者固有のファインチューニングを必要とせずに、聴覚障害者の発話の明瞭性と自然さを顕著に向上させられるか?
  • RQ3マスキングや合成ターゲットを明示的に使用せず、未学習の話者混合音声に対して、Parrotronモデルは音声分離タスクに一般化できるか?
  • RQ4エンドツーエンドの音声対音声変換は、段階的なASR-TTSパイプラインに比べ、音声品質の保持とASR誤り率の低減において優れているか?
  • RQ5マルチタスク発音子予測は、音声正規化および分離タスクにおけるモデルのロバストネスをどの程度向上させるか?

主な発見

  • Parrotronモデルは、ノイズ混在音声のASR WERを33.2%からデノイジング後の17.3%に低下させ、優れた音声分離性能を示した。
  • ノイズ環境下で、語の挿入率が19.1%から2.2%に顕著に低下した。これは、背景話者の内容が効果的に抑制されたことを示している。
  • 聴取テストの結果、正規化された聴覚障害者の発話は、元の特徴的な音声に比べ、明瞭性と自然さが向上していることが確認された。
  • デノイジング音声分離テストセットにおいて、モデルは17.3%のWERを達成し、元のノイズ混在入力(33.2% WER)を上回る性能を示した。
  • マルチタスク発音子予測により、特に特徴的な音声の状況下でも言語的コンテンツの保持能力が向上した。
  • モデルは、学習時とは異なる話者に対しても音声分離タスクで一般化でき、学習分布外の状況に対してもロバストであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。