Skip to main content
QUICK REVIEW

[論文レビュー] Universal audio synthesizer control with normalizing flows

Philippe Esling, Naotake Masuda|arXiv (Cornell University)|Jul 1, 2019
Music Technology and Sound Studies参考文献 16被引用数 34
ひとこと要約

論文は音響の潜在空間を学習し、それをパラメータ空間へ逆写像可能にマッピングする合成器制御を定式化する。正規化フローとVAEを使用し、回帰および分解フローを導入してパラメータ推定、マクロコントロール、音声ベースのプリセット探索を可能にする。

ABSTRACT

The ubiquity of sound synthesizers has reshaped music production and even entirely defined new music genres. However, the increasing complexity and number of parameters in modern synthesizers make them harder to master. Hence, the development of methods allowing to easily create and explore with synthesizers is a crucial need. Here, we introduce a novel formulation of audio synthesizer control. We formalize it as finding an organized latent audio space that represents the capabilities of a synthesizer, while constructing an invertible mapping to the space of its parameters. By using this formulation, we show that we can address simultaneously automatic parameter inference, macro-control learning and audio-based preset exploration within a single model. To solve this new formulation, we rely on Variational Auto-Encoders (VAE) and Normalizing Flows (NF) to organize and map the respective auditory and parameter spaces. We introduce the disentangling flows, which allow to perform the invertible mapping between separate latent spaces, while steering the organization of some latent dimensions to match target variation factors by splitting the objective as partial density evaluation. We evaluate our proposal against a large set of baseline models and show its superiority in both parameter inference and audio reconstruction. We also show that the model disentangles the major factors of audio variations as latent dimensions, that can be directly used as macro-parameters. We also show that our model is able to learn semantic controls of a synthesizer by smoothly mapping to its parameters. Finally, we discuss the use of our model in creative applications and its real-time implementation in Ableton Live

研究の動機と目的

  • 合成器の音声能力の組織化された潜在表現を動機づける。
  • 潜在音声空間と合成パラメータ空間の可逆的な写像を提供する。
  • 同時にパラメータ推定、マクロコントロール学習、音声ベースのプリセット探索を可能にする。
  • 潜在因子を写像・整理するために回帰フローと分離フローを導入する。
  • ベースラインよりも音声再構成とパラメータ推定の改善を示す。

提案手法

  • 可逆写像で結ばれた2つの潜在空間を学習することとして合成器制御を定式化する。
  • VAEを用いて組織化された潜在音響空間zを学習し、後部分布の表現力を高めるためにNormalizing Flowsを組み合わせる。
  • 潜在zを合成パラメータvへ写像する回帰フローを、加算的なガウスノイズモデルとともに定義する。
  • Flow_postおよびFlow_condバリアントを導入して写像と不確実性を最適化する。
  • 監督ありの場合はセマンティックタグtと潜在次元を整列させる分離フローを用いてモデルを拡張する。
  • 音声とMIDI制御可能パラメータのセットが対になったDiva合成器データセットで訓練し、パラメータ推定と音声再構成の点でベースラインと比較評価する。

実験結果

リサーチクエスチョン

  • RQ1潜在音響空間を組織化し、パラメータ空間へ可逆に写像することは、パラメータ推定と音声再構成を改善しますか?
  • RQ2回帰フローと分離フローは、知覚的制御のための効果的なマクロコントロール学習とセマンティック次元を実現しますか?
  • RQ3提案手法はより多くのパラメータ数やドメイン外の音声に対して頑健ですか?
  • RQ4音声ベースの近傍探索を用いて潜在空間経由でプリセットをナビゲートできますか?
  • RQ5リアルタイムアプリケーション(例: Ableton Live)での性能はどうですか?

主な発見

モデル16p Params MSE_n16p Audio SC16p Audio MSE32p Params MSE_n32p Audio SC32p Audio MSEOut-of-domain Audio MSE
MLP0.236 ± 0.446.226 ± 0.139.548 ± 3.10.218 ± 0.4613.51 ± 3.136.48 ± 11.92.348 ± 2.1
CNN0.171 ± 0.451.372 ± 0.296.329 ± 1.90.159 ± 0.4619.18 ± 4.733.40 ± 9.42.311 ± 2.2
ResNet0.191 ± 0.431.004 ± 0.356.422 ± 1.90.196 ± 0.4910.37 ± 1.831.13 ± 9.82.322 ± 1.6
AE0.181 ± 0.400.893 ± 0.135.557 ± 1.70.169 ± 0.405.566 ± 1.217.71 ± 6.91.225 ± 2.2
VAE0.182 ± 0.320.810 ± 0.034.901 ± 1.40.153 ± 0.345.519 ± 1.416.85 ± 6.11.237 ± 1.3
WAE0.159 ± 0.370.787 ± 0.054.979 ± 1.50.147 ± 0.333.967 ± 0.8816.64 ± 6.21.194 ± 1.5
VAE_flow0.199 ± 0.320.838 ± 0.024.975 ± 1.40.164 ± 0.341.418 ± 0.2317.74 ± 6.81.193 ± 1.8
Flow_reg0.197 ± 0.310.752 ± 0.054.409 ± 1.60.193 ± 0.320.911 ± 1.416.61 ± 7.41.101 ± 1.2
Flow_dis.0.199 ± 0.310.831 ± 0.045.103 ± 2.10.197 ± 0.421.481 ± 1.817.12 ± 7.91.209 ± 1.4
  • Flow_regモデルは評価された手法の中で最良の音声再構成性能を達成する。
  • AEベースのモデル(Flow系を含む)は、パラメータ推定がより正確でない場合でも、直接パラメータ回帰ベースラインより音声構造を捉えるのに優れていた。
  • パラメータ数を16から32に増やすと、Flowよりもベースライン手法の劣化が大きく、Flow系は高次元パラメータ空間に対して最も堅牢であった。
  • 分離フローはマクロコントロールに有用な明示的なセマンティック次元を提供するが、Flow_regと比べて生の音声忠実度をわずかに低下させる場合がある。
  • 潜在音響空間のエンコードは意味のある近傍を生み出し、この空間からのパラメータデコードは、場合によっては直接のパラメータ推定より音声構造を良く保持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。