Skip to main content
QUICK REVIEW

[論文レビュー] Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations

Hyeong-Seok Choi, Juheon Lee|arXiv (Cornell University)|Oct 27, 2021
Speech Recognition and Synthesis被引用数 55
ひとこと要約

NANSY は自己教師ありの完全なニューラルフレームワークを提供し、音声を分析・合成してゼロショットのボイスコンバーション、Yingramによるピッチシフト、時間スケール変更をラベル付きデータなしで可能にします。

ABSTRACT

We present a neural analysis and synthesis (NANSY) framework that can manipulate voice, pitch, and speed of an arbitrary speech signal. Most of the previous works have focused on using information bottleneck to disentangle analysis features for controllable synthesis, which usually results in poor reconstruction quality. We address this issue by proposing a novel training strategy based on information perturbation. The idea is to perturb information in the original input signal (e.g., formant, pitch, and frequency response), thereby letting synthesis networks selectively take essential attributes to reconstruct the input signal. Because NANSY does not need any bottleneck structures, it enjoys both high reconstruction quality and controllability. Furthermore, NANSY does not require any labels associated with speech data such as text and speaker information, but rather uses a new set of analysis features, i.e., wav2vec feature and newly proposed pitch feature, Yingram, which allows for fully self-supervised training. Taking advantage of fully self-supervised training, NANSY can be easily extended to a multilingual setting by simply training it with a multilingual dataset. The experiments show that NANSY can achieve significant improvement in performance in several applications such as zero-shot voice conversion, pitch shift, and time-scale modification.

研究の動機と目的

  • テキストや話者ラベルなしで、高レベルの分析特徴を用いて任意の音声信号を再構成し、制御可能に操作することを目的とする。
  • 情報 perturbation を導入して言語情報、ピッチ情報、話者情報を分離しつつ再構成品質を維持する。
  • 多言語設定におけるゼロショットのボイスコンバーション、フォーマントを保持したピッチシフト、時間-スケール変更などの応用を可能にする。

提案手法

  • 中間層(24層中12番目)の language-agnostic linguistic information として wav2vec 2.0 features (XLSR-53) を用いる。
  • 同じ wav2vec 表現から自己教師付き話者埋め込みネットワークで話者情報を抽出する。
  • Yingram を導入。Yinベースの差分関数から得られるピッチ関連特徴を MIDI様軸にマッピングして制御可能なピッチとする。
  • 情報摂動を wav2vec 入力に対してフォーマントシフト、ピッチのランダム化、パラメトリック EQ をカスケード適用し、Yingram に対してもフォーマント/ピッチを保持する摂動を加え、特徴の分離を促進する。
  • 合成を二つのジェネレータに分割: G_S (ソース、Yingram によって駆動) と G_F (フィルター、wav2vec によって駆動)、これらの出力を足し合わせてメルスペクトログラムを形成する。
  • 自然さを高めるために L1 損失と射影条件付き GAN 損失で訓練し、その後 waveform 再構成のために HiFi-GAN を用いる。

実験結果

リサーチクエスチョン

  • RQ1NANSY はテキストや話者ラベルなしで言語情報、ピッチ、話者情報を分離しつつ高品質な音声を再構成できるか?
  • RQ2情報摂動はボトルネックベースのアプローチと比べて、より優れた制御性と再構成品質を可能にするか?
  • RQ3モデルは多言語設定でゼロショットのボイスコンバーションと制御可能なピッチシフト/時間-スケール変更を実行できるか、テスト時適応は見えない言語の性能を改善するか?

主な発見

  • NANSY はラベルなしデータで高品質な再構成を実現し、声、ピッチ、速度の制御可能な操作を提供する。
  • Yingram は f0 より頑健なピッチ表現を提供し、難しいケースでも効果的なピッチ制御とピッチシフト操作を可能にする。
  • 情報摂動は分離と再構成品質のトレードオフを解消し、声の変換指標においてボトルネックベース手法を上回る。
  • TSA はテスト時に入力 wav2vec 特徴だけを適応させることで unseen language の CER を改善し、モデルの再訓練を必要としない。
  • NANSY は強力なゼロショットの声変換性能、多言語 VC、 unseen-language VC を competitive MOS と高い SSIM で示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。