QUICK REVIEW

[論文レビュー] Unsupervised Speech Decomposition via Triple Information Bottleneck

Kaizhi Qian, Shuicheng Yan|arXiv (Cornell University)|Apr 23, 2020

Speech Recognition and Synthesis参考文献 39被引用数 43

ひとこと要約

SpeechSplit は、テキストラベルなしで4つの成分すべてを対象とするブラインドなスタイル転送を可能にする、コンテンツ、音色、ピッチ、リズムを分離する3つの特殊情報ボトルネックを用いた無監督オートエンコーダーです。

ABSTRACT

Speech information can be roughly decomposed into four components: language content, timbre, pitch, and rhythm. Obtaining disentangled representations of these components is useful in many speech analysis and generation applications. Recently, state-of-the-art voice conversion systems have led to speech representations that can disentangle speaker-dependent and independent information. However, these systems can only disentangle timbre, while information about pitch, rhythm and content is still mixed together. Further disentangling the remaining speech components is an under-determined problem in the absence of explicit annotations for each component, which are difficult and expensive to obtain. In this paper, we propose SpeechSplit, which can blindly decompose speech into its four components by introducing three carefully designed information bottlenecks. SpeechSplit is among the first algorithms that can separately perform style transfer on timbre, pitch and rhythm without text labels. Our code is publicly available at https://github.com/auspicious3000/SpeechSplit.

研究の動機と目的

音声における content、rhythm、pitch、timbre の分離の必要性を、単なる timbre 以上の視点で動機づける。
3つのエンコーダとターゲットボトルネックを備え、4つの音声成分を分離する無監督オートエンコーダフレームワーク（SpeechSplit）を提案する。
テキスト注釈に依存せず、異なる成分を転送または変更できることを実証する。
情報ボトルネックの原理を活用して分離をガイドし、一般的な表現学習への洞察を提供する。

提案手法

3つのエンコーダ（content、rhythm、pitch）とデコーダを導入し、それぞれのエンコーダ出力に情報ボトルネックを設ける。
content および pitch エンコーダに対してランダムな時間領域リサンプリングを適用し、リズム情報を汚染してボトルネックを作成する。
デコーダには3つのコードすべてと話者識別情報を入力し、スペクトログラムを再構成してブラインドな分離を可能にする（特定の仮定の下）。
Decoded spectrogram から waveform を再構成するために WaveNet vocoder を使用する（AutoVC のように）。
テキストラベルなしで VCTK で訓練し、主観 MOS と客観的ピッチ指標（GPE、VDE、FFE）で評価する。

実験結果

リサーチクエスチョン

RQ1テキスト転写なしの無監督設定で、音声成分の content、rhythm、pitch、timbre を分離できるか。
RQ23つの専用ボトルネックが、それぞれのエンコーダが異なる成分（C、R、F）を捉えるよう強制し、timbre情報はデコーダに別個に提供されるか。
RQ3SpeechSplit は並列データやラベルなしで、独立または組み合わせたスタイル転送（リズム、ピッチ、音色）を実行できるか。
RQ4AutoVC と比較して、ピッチのみの変換と他の変換の主観的および客観的な性能特性はどうなるか。

主な発見

Rhythm MOS	Pitch MOS	Timbre MOS
3.21	3.79	3.40
3.04	2.73	3.35
2.79	3.24	4.65

SpeechSplit はスペクトログラムとピッチ輪郭のリズム、ピッチ、音色のほぼ分離した操作を可能にする。
ピッチのみの変換は、ターゲット輪郭に対する測定可能なピッチ整列を達成する（GPE ~1.04%、VDE ~8.14%、FFE ~8.86%）。
主観的 MOS は、成分ごとに難易度が異なることを示し、単独で変換した場合にはピッチ変換が一般に音色やリズムより高い。
異なる変換タイプの MOS は、3 成分すべてを変換した場合が単一成分変換より品質が低く、AutoVC は依然として音色を重視する基準値となる。
content と一致しないリズム変換は、リズムを content/pitch mappings に合わせるアンカー/埋め込み機構を示す。
エンコーダ入力をゼロにして1つの成分を 제거することは、解釈可能な損失パターン（例：リズムを除去した場合はスペクトログラムが空白になる）を生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。