QUICK REVIEW

[論文レビュー] Learning Disentangled Representations of Timbre and Pitch for Musical Instrument Sounds Using Gaussian Mixture Variational Autoencoders

Yin-Jyun Luo, Kat Agres|arXiv (Cornell University)|Jun 19, 2019

Music and Audio Processing被引用数 28

ひとこと要約

本稿では、それぞれの要因に対して別々のエンコーダーを用いることで、楽器音色とピッチを分離するガウス混合変分オートエンコーダー（GMVAE）フレームワークを提案する。ピッチと音色の異なるガウス混合成分から独立にサンプリングし、それらを連結してデコーダーに入力することで、制御可能な音声合成と多数対多数の音色転送を実現し、合成音声に対してテストされた楽器分類器で高いFスコア（最大0.958）を達成した。

ABSTRACT

In this paper, we learn disentangled representations of timbre and pitch for musical instrument sounds. We adapt a framework based on variational autoencoders with Gaussian mixture latent distributions. Specifically, we use two separate encoders to learn distinct latent spaces for timbre and pitch, which form Gaussian mixture components representing instrument identity and pitch, respectively. For reconstruction, latent variables of timbre and pitch are sampled from corresponding mixture components, and are concatenated as the input to a decoder. We show the model efficacy by latent space visualization, and a quantitative analysis indicates the discriminability of these spaces, even with a limited number of instrument labels for training. The model allows for controllable synthesis of selected instrument sounds by sampling from the latent spaces. To evaluate this, we trained instrument and pitch classifiers using original labeled data. These classifiers achieve high accuracy when tested on our synthesized sounds, which verifies the model performance of controllable realistic timbre and pitch synthesis. Our model also enables timbre transfer between multiple instruments, with a single autoencoder architecture, which is evaluated by measuring the shift in posterior of instrument classification. Our in depth evaluation confirms the model ability to successfully disentangle timbre and pitch.

研究の動機と目的

楽器音声における音色とピッチの分離表現を学習し、制御可能な音声合成を可能にする。
特に実楽器の録音において、音声表現の分離が不十分である問題に対処する。
個々の楽器用のデコーダーをトレーニングする必要なく、カテゴリカルな条件を必要とせずに、多数対多数の音色転送を可能にする。
潜在空間の可視化、分類器のFスコア、スペクトルセンタロイド分析を通じて、分離度を評価する。
モデルの一般化性と解釈可能性を評価し、現実的で制御可能な楽器音声の生成を実現する。

提案手法

モデルは、ピッチと音色それぞれの別個の潜在空間を学習するための2つの独立したエンコーダーを用いる。各潜在空間はガウス混合成分を形成する。
ピッチと音色の潜在変数は、それぞれの混合成分から独立にサンプリングされ、それらを連結して共通のデコーダーに入力する。
潜在次元における分離を促進するために、対角線分散を持つガウス事前分布を用いたGMVAEフレームワークを採用する。
共通のデコーダーが、連結されたピッチと音色の潜在変数から音声スペクトログラムを再構成する。
オリジナルデータおよび合成データ上で、楽器分類器とピッチ分類器をエンドツーエンドでトレーニングし、分離度と制御性を評価する。
スペクトルセンタロイドの分離度は、特定の潜在次元を変更し、スペクトルセンタロイド値の変化を測定することで評価する。

実験結果

リサーチクエスチョン

RQ1GMVAEベースのフレームワークは、実楽器録音におけるピッチと音色の分離に成功するか？
RQ2分離された潜在要因を操作することで、モデルが楽器音声の制御可能な合成をどの程度可能にするか？
RQ3個々の楽器用のデコーダーやカテゴリカルな条件を必要とせずに、モデルは多数対多数の音色転送を実現できるか？
RQ4学習された表現は、範囲外のピッチや未観測の楽器コンビネーションに対してどの程度一般化するか？
RQ5どの潜在次元がスペクトルセンタロイドなどの特定の音響的特徴に対応しているか？

主な発見

合成音声に対してテストした楽器分類器で、最大0.958の高いFスコアを達成しており、効果的な分離と現実的な合成が確認された。
ほとんどのソース・ターゲット音色転送ペアにおいて、ピッチ分類はFスコアが完全に維持され、転送中にピッチが保持されていることが示された。
ピアノ→チェロおよびピアノ→バスーンの転送では、Fスコアが0.750および0.791に低下したが、これはピッチレンジの不一致とモデルの一般化限界に起因するとされた。
音色の13番目の潜在次元とスペクトルセンタロイドとの間に有意な相関が認められ、両側t検定のp値は0.05未満であった。
潜在次元の走査により、z¹³ₜを増加させると高周波数エネルギーが低下し、スペクトルセンタロイドが低下することが確認され、この音響的特徴の分離が裏付けられた。
モデルは複数の楽器間（例：ピアノ→チェロ、フランスホルン→バスーン）での音色転送に成功しており、事後分布のシフトがα = 0.5でピークに達しており、効果的な制御が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。