QUICK REVIEW

[論文レビュー] DDSP: Differentiable Digital Signal Processing

Jesse Engel, Lamtharn Hantrakul|arXiv (Cornell University)|Jan 14, 2020

Music and Audio Processing参考文献 37被引用数 77

ひとこと要約

本論文は、 DDSP ライブラリを導入し、発振器、エンベロープ、フィルタ、リバーブなどの differentiable DSP コンポーネントをニューラルネットワークと統合して、 heavy autoregressive または adversarial 学習を要さずに、解釈可能でモジュール式の制御を実現しつつ高忠実度の音響合成を達成する。

ABSTRACT

Most generative models of audio directly generate samples in one of two domains: time or frequency. While sufficient to express any signal, these representations are inefficient, as they do not utilize existing knowledge of how sound is generated and perceived. A third approach (vocoders/synthesizers) successfully incorporates strong domain knowledge of signal processing and perception, but has been less actively researched due to limited expressivity and difficulty integrating with modern auto-differentiation-based machine learning methods. In this paper, we introduce the Differentiable Digital Signal Processing (DDSP) library, which enables direct integration of classic signal processing elements with deep learning methods. Focusing on audio synthesis, we achieve high-fidelity generation without the need for large autoregressive models or adversarial losses, demonstrating that DDSP enables utilizing strong inductive biases without losing the expressive power of neural networks. Further, we show that combining interpretable modules permits manipulation of each separate model component, with applications such as independent control of pitch and loudness, realistic extrapolation to pitches not seen during training, blind dereverberation of room acoustics, transfer of extracted room acoustics to new environments, and transformation of timbre between disparate sources. In short, DDSP enables an interpretable and modular approach to generative modeling, without sacrificing the benefits of deep learning. The library is publicly available at https://github.com/magenta/ddsp and we welcome further contributions from the community and domain experts.

研究の動機と目的

従来の DSP から得られる強い帰納的バイアスを活用して、音響合成のエンドツーエンド学習を動機づけ、実現可能にする。
発振器、エンベロープ、フィルタ、リバーブをニューラルネットワークと組み合わせたモジュラーで微分可能なツールキット（DDSP）を開発する。
DDSP がピッチと音量の独立した制御、見たことのないピッチへの外挿、音色転送を可能にすることを示す。
DDSP が自己回帰的または GAN ベースのベースラインと比べて、より小さなモデルで高品質な合成を達成できることを示す。

提案手法

時間変化する基礎周波数 f0(n) および調和振幅 A(n) を用いた differentiable な加法合成を実装し、A_k(n)=A(n)c_k(n) とする。
エンベロープと平滑化を用いて遅いニューラルフレームレートをオーディオレートにアップサンプルし、アーティファクトを避ける。
ネットワーク推定転送関数 H_l をフレームごとに設計した周波数サンプリング法による時変線形位相 FIR フィルタ。
加法（ハーモニック）とフィルタ済みノイズ（減算的）合成を組み合わせた Harmonic plus Noise モデル。
周波数領域の畳み込みを介した微分可能なリバーブを組み込み、長いインパルス応答をモデル化。
マルチスケールスペクトル損失 (L_i = ||S_i - S_i_hat||_1 + alpha ||log S_i - log S_i_hat||_1) を用いたオートエンコーダを複数の FFT サイズで学習。

実験結果

リサーチクエスチョン

RQ1 differentiable DSP コンポーネントは autoregressive や adversarial 損失なしで高忠実度の音響合成のエンドツーエンド学習を可能にするか？
RQ2モジュラーな DDSP アーキテクチャは unseen 条件への外挿をサポートしつつ、ピッチ、音量、音色の独立した制御を可能にするか？
RQ3部屋の音響（リバーブ）の明示的モデル化を源生成から分離して、ブラインドデリバーブや音響転送のようなタスクを可能にするか？
RQ4 DDSP ベースのオートエンコーダは、質・効率の点で最新の neural vocoder と競合できるか？
RQ5DDSP コンポーネントは、音楽/音声生成をいかに解釈可能で制御可能にするか？

主な発見

モデル	音量 L1	F0 L1	F0 外れ値
WaveRNN (baseline)	0.10	1.00	0.07
DDSP Autoencoder (Supervised)	0.07	0.02	0.003
DDSP Autoencoder (Unsupervised)	0.09	0.80	0.04

DDSP オートエンコーダは WaveRNN や類似ベースラインよりはるかに小さなモデルで、ソロヴァイオリンや NSynth スタイルのデータを高忠実度で再合成できる。
Supervised DDSP は F0 L1 error で WaveRNN を上回り、NSynth に対する比較モデルより大きな音量誤差を低減。
Unsupvervised DDSP は perceptual CREPE 損失を用いることで、pitch conditioning を明示的に行わずとも意味のある F0 と音色を学習し、いくつかのベースラインより優れている。
F(t) と l(t) の別個の条件付けを通じてピッチと音量の独立制御が示され、z(t) が音色をエンコードし、内插が滑らかな知覚的遷移を示す。
部屋のインパルス応答を分離し、学習済みリバーブを新しいオーディオに適用することでリデベアリングと音響転送を実現し、ブラインドデリバレバレーションと環境転送を可能にする。
歌唱からヴァイオリンへの音色転送は、声の F0/音量とヴァイオリン録音からのリバーブ転送を条件付けることで示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。