QUICK REVIEW

[論文レビュー] Adversarial Audio Synthesis

Chris Donahue, Julian McAuley|arXiv (Cornell University)|Feb 12, 2018

Generative Adversarial Networks and Image Synthesis被引用数 94

ひとこと要約

本論文は WaveGAN および SpecGAN を導入し、GAN を用いた生の音声データの無監督生成を示す。ドメイン横断で一秒の一貫した音声を生成し（スピーチ、ドラム、鳥、ピアノ）、人間の判断と inception ベースの指標で評価する。

ABSTRACT

Audio signals are sampled at high temporal resolutions, and learning to synthesize audio requires capturing structure across a range of timescales. Generative adversarial networks (GANs) have seen wide success at generating images that are both locally and globally coherent, but they have seen little application to audio generation. In this paper we introduce WaveGAN, a first attempt at applying GANs to unsupervised synthesis of raw-waveform audio. WaveGAN is capable of synthesizing one second slices of audio waveforms with global coherence, suitable for sound effect generation. Our experiments demonstrate that, without labels, WaveGAN learns to produce intelligible words when trained on a small-vocabulary speech dataset, and can also synthesize audio from other domains such as drums, bird vocalizations, and piano. We compare WaveGAN to a method which applies GANs designed for image generation on image-like audio feature representations, finding both approaches to be promising.

研究の動機と目的

GAN を用いた生の音声の無監督生成を、スペクトログラムや自己回帰モデルに依存せずに動機づけ、探究する。
DCGAN から適用した GAN アーキテクチャで WaveGAN を開発し、1 秒の生波形音声を生成する。
SpecGAN を開発し、ほぼ可逆のスペクトログラムを生成し、波形ベース生成と比較する。
音声、ドラム、鳥の鳴き声、ピアノを含む複数の音声ドメインで生成品質、多様性、聞こえやすさを評価する。
画像生成 GAN を音響合成へ適用するための実用的なガイドラインとベースラインテンプレートを提供する。

提案手法

長さ 25 の長い 1D フィルタを用い、アップサンプリングを 4、識別器で位相シャッフルを行いアーティファクトを抑制することで WaveGAN を 1 次元波形生成へ適用する。
Griffin-Lim を用いた波形復元経路を持つ、スペクトログラム上で動作し近似的に可逆な SpecGAN を導入する。
GAN 最適化を安定化させるために WGAN-GP 学習を適用する。
識別器で位相不変性を強制するために phase shuffle を用い、n は {1,2,4} の範囲とする。
SC09 用に訓練された音響分類器での inception スコアと、多様性・訓練データ近接指標、人間の判断を用いて評価する。

実験結果

リサーチクエスチョン

RQ1高次元の音声データにおいて、条件付きラベルを付けずに GAN がグローバルな構造を学習できるか？
RQ2 waveform ベースとスペクトログラムベースの GAN アプローチは、異なるドメインにわたる無監督音声合成でどのように比較されるか？
RQ3位相シャッフルなどの正則化やアーキテクチャの選択は、音声生成の品質と多様性をどのように改善するか？
RQ4生成された音声は人間にとって聞き取り可能か、実データおよび自己回帰ベースの基準と比べてどうか？

主な発見

実験	Inception スコア	\|D\|自己\|	\|D\|訓練データ\|	Acc.	音質	聞き取りやすさ	多様性
実データ（訓練）	9.18±0.04	1.1	0.0
実データ（テスト）	8.01±0.24	1.0	1.0	0.95	3.9±0.8	3.9±1.1	3.5±1.0
パラメトリック	5.02±0.06	0.7	1.1
WaveGAN	4.12±0.03	1.4	2.0
+ 位相シャッフル n=2	4.67±0.01	0.8	2.3	0.58	2.3±0.9	2.8±0.9	3.2±0.9
+ 位相シャッフル n=4	4.54±0.03	1.0	2.3
+ 最近傍補間	3.77±0.02	1.8	2.6
+ 後処理	3.92±0.03	1.4	2.9
+ ドロップアウト	3.93±0.03	1.0	2.6
SpecGAN	6.03±0.04	1.1	1.4	0.66	1.9±0.8	2.8±0.9	2.6±1.0
+ 位相シャッフル n=1	3.71±0.03	0.8	1.6

WaveGAN と SpecGAN は、条件なし設定で intelligible な話者の数字を生成できる。
WaveGAN は一般に SpecGAN より主観的な音質と話者の多様性が高い傾向だが、SpecGAN は inception スコアが高い。
位相シャッフルは、いくつかの設定で生成を改善または安定化させ、この設定で dropout などの特定の正則化手法を上回ることがある。
WaveGAN は SC09 で inception スコア 4.7、SpecGAN は同じ設定で 6.03 を達成し、実データのテストは 8.01。
ドメイン間（ドラム、鳥、ピアノ、TIMIT）では WaveGAN が知覚的に一貫性のある音声サンプルを生成し、ドメインに沿った構造を捉える。SpecGAN 変種は分散の捕捉が強いが、反転関連のアーティファクトが生じることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。