QUICK REVIEW

[論文レビュー] A Universal Music Translation Network

Noam Mor, Lior Wolf|arXiv (Cornell University)|May 21, 2018

Music and Audio Processing参考文献 23被引用数 42

ひとこと要約

共通エンコーダと adversarial domain confusion を備えた multi-domain WaveNet autoencoder を用いる universal encoder-decoder フレームワークは、楽器、ジャンル、スタイルを跨いで音楽を翻訳し、ペアデータなしでも unseen domains からの翻訳を可能にします。

ABSTRACT

We present a method for translating music across musical instruments, genres, and styles. This method is based on a multi-domain wavenet autoencoder, with a shared encoder and a disentangled latent space that is trained end-to-end on waveforms. Employing a diverse training dataset and large net capacity, the domain-independent encoder allows us to translate even from musical domains that were not seen during training. The method is unsupervised and does not rely on supervision in the form of matched samples between domains or musical transcriptions. We evaluate our method on NSynth, as well as on a dataset collected from professional musicians, and achieve convincing translations, even when translating from whistling, potentially enabling the creation of instrumental music by untrained humans.

研究の動機と目的

楽器、スタイル、ジャンルを跨ぐ cross-domain 音楽翻訳を、ペアデータやトランスクリプトなしで動機づけて実証する。
多様な音楽入力を domain-independent latent space に写像する単一の universal encoder を提案する。
複数の domain-specific decoders を用いて高品質な翻訳を可能にするため、ドメイン情報を分離する。
手法が unseen domains に一般化することを示し、人間の翻訳者と比較した知覚的・自動評価を分析する。

提案手法

すべての音楽ドメインで共有エンコーダを用い、複数の domain-specific WaveNet decoders を用いる。
latent space に対して denoising autoencoder objective と domain confusion adversarial loss を用いて、ドメイン特有のエンコードを抑制する。
入力音声に局所的なランダムなピッチモジュレーションを追加して高レベルの意味表現を促進し、 memoria ization を抑制する。
encoder の潜在表現を条件として WaveNet 自己回帰デコーダをデコードする。 training では teacher forcing を使用。
推論時には、ターゲットドメインに対応するデコーダと共有エンコーダを通して歪みなく任意のドメインの入力を翻訳する。
ドメイン非依存のエンコードを強制するため、クロスエントロピー再構成損失とドメイン分類損失で最適化する。

実験結果

リサーチクエスチョン

RQ11) 単一の共有エンコーダは、ペア付きデータなしで複数の音楽ドメイン間の翻訳に十分なドメイン不変表現を学習できるのか？
RQ22) unseen domains（例：ホイッスル）を再訓練せずにターゲットドメインへ翻訳できる程度はどれくらいか？
RQ33) augmentation と domain confusion は、人間の演奏者と比較して翻訳の質と忠実度にどのような影響を与えるのか？
RQ44) 潜在空間が音高と timbre 情報を音楽的に意味のある方法でエンコードしているという証拠はどの程度あるのか？
RQ55) 翻訳プロセスはソースを混合しつつ自動回帰デコーディングで時間構造を維持する robustness があるのか？

主な発見

このアプローチは楽器、スタイル、ジャンル間の説得力のある翻訳を達成し、いくつかのタスクではプロのミュージシャンに近づくまたはわずかに遜色がある。
universal encoder は whistling など unseen domains へ一般化し、ドメイン特有の再訓練なしで翻訳を可能にする。
局所的なピッチ変調を入力に追加し domain-confusionLoss を使用することが、訓練の安定性と品質にとって極めて重要であり、それらがないアブレーションは発散または学習が不良になる。
NSynth 類似データ上で embeddings がピッチ情報を保持しており、跨ドメインの潜在表現が意味のあることを示している。
潜在空間での線形ブレンディングは、音楽セグメント間の自然でシームレスな意味的ブレンディングを生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。