Skip to main content
QUICK REVIEW

[論文レビュー] Towards Transfer Learning for End-to-End Speech Synthesis from Deep Pre-Trained Language Models

Wei Fang, Yu-An Chung|arXiv (Cornell University)|Jun 17, 2019
Speech Recognition and Synthesis参考文献 26被引用数 26
ひとこと要約

本稿では、転移学習を用いて、エンドツーエンド音声合成におけるデータ品質の高い要件を満たすために、BERT表現をタコトロン-2の並列テキストエンコーダーとして統合する手法を提案する。BERTの深い文脈的埋め込みをタコトロン-2のエンコーダ出力と連結することで、訓練収束が速くなり、合成後のボバリングが顕著に減少するが、自然さや客観的指標についてはベースラインと比較してほとんど改善がない。

ABSTRACT

Modern text-to-speech (TTS) systems are able to generate audio that sounds almost as natural as human speech. However, the bar of developing high-quality TTS systems remains high since a sizable set of studio-quality pairs is usually required. Compared to commercial data used to develop state-of-the-art systems, publicly available data are usually worse in terms of both quality and size. Audio generated by TTS systems trained on publicly available data tends to not only sound less natural, but also exhibits more background noise. In this work, we aim to lower TTS systems' reliance on high-quality data by providing them the textual knowledge extracted by deep pre-trained language models during training. In particular, we investigate the use of BERT to assist the training of Tacotron-2, a state of the art TTS consisting of an encoder and an attention-based decoder. BERT representations learned from large amounts of unlabeled text data are shown to contain very rich semantic and syntactic information about the input text, and have potential to be leveraged by a TTS system to compensate the lack of high-quality data. We incorporate BERT as a parallel branch to the Tacotron-2 encoder with its own attention head. For an input text, it is simultaneously passed into BERT and the Tacotron-2 encoder. The representations extracted by the two branches are concatenated and then fed to the decoder. As a preliminary study, although we have not found incorporating BERT into Tacotron-2 generates more natural or cleaner speech at a human-perceivable level, we observe improvements in other aspects such as the model is being significantly better at knowing when to stop decoding such that there is much less babbling at the end of the synthesized audio and faster convergence during training.

研究の動機と目的

  • エンドツーエンド音声合成(TTS)システムにおける高いデータ品質の障壁を、事前学習された言語モデルを活用することで克服すること。
  • スタジオ品質の<テキスト, 音声>ペアに依存するのを減らし、BERTからの豊富な言語的知識を統合することで、品質を向上させること。
  • 音声の自然さを損なわず、訓練効率と推論挙動(特にストップトークン予測)を改善すること。
  • 公開利用可能なデータを用いた低リソース環境下で、事前学習された言語表現がTTS性能を向上させられるかどうかを調査すること。

提案手法

  • 同じ入力テキストを処理するタコトロン-2エンコーダの並列エンコーダブランチとしてBERTを統合する。
  • 各入力トークンについて、BERTの最終層から文脈的なテキスト表現を抽出する。
  • 各タイムステップで、BERTの表現とタコトロン-2のエンコーダ出力を連結する。
  • デコーダで、タコトロン-2エンコーダとBERTエンコーダの両方の表現にそれぞれ別々のアテンションヘッドを用いて注目する。
  • 連結されたコンテキストベクトルを、スペクトル特徴予測用の自己回帰的LSTMに供給する。
  • TTSおよびBERTの両コンponentを微調整しながら、標準のタコトロン-2損失関数を用いて、モデル全体をエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

  • RQ1公開利用可能な低品質データで訓練された場合、BERTのような事前学習された言語モデル表現がエンドツーエンドTTS性能を向上させられるか?
  • RQ2BERT表現を統合することで、標準のタコトロン-2と比較してTTS訓練における収束が速くなるか?
  • RQ3BERT表現の統合により、合成後のボバリングや過剰生成といった一般的なTTSアーティファクトが低減されるか?
  • RQ4BERT表現は、デコーディングをいつ停止すべきかを予測する能力をどの程度向上させるか?
  • RQ5自然さの変化がほとんどないにもかかわらず、MCD13 や FFE といった客観的指標に測定可能な改善が見られるか?

主な発見

  • 学習曲線(図2)から、提案モデルはベースラインのタコトロン-2と比較して著しく速く収束することが示された。
  • BERT統合モデルでは、合成後のボバリングが著しく低減されており、デコーダが停止するタイミングをより正確に学習している。
  • 収束が速く、ストップ予測が改善されているにもかかわらず、最終段階の評価で知覚的品質やMCD13/FFE指標に統計的に有意な改善は認められなかった。
  • FFE指標はMCD13よりも音声品質と相関が強く、MCD13は振動を示し、知覚的自然さとの相関が弱いことがわかった。
  • アテンション可視化の結果、BERTの注目パターンはタコトロン-2エンコーダと比較して焦点がぼけており、補助的で支配的ではない情報であることが示唆された。
  • BERTエンコーダの表現はアテンションアライメントにおいて影響力が低く、主にテキストから音声へのマッピングはタコトロン-2エンコーダが学習した表現によって駆動されていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。