QUICK REVIEW

[論文レビュー] Jukebox: A Generative Model for Music

Prafulla Dhariwal, Heewoo Jun|arXiv (Cornell University)|Apr 30, 2020

Music and Audio Processing参考文献 73被引用数 108

ひとこと要約

Jukeboxは階層的VQ-VAEと自己回帰型トランスフォーマーを導入し、原音での歌唱を含む高忠実度の音楽を生成可能。アーティスト、ジャンル、歌詞で制御でき、分単位の一貫性を持つ。

ABSTRACT

We introduce Jukebox, a model that generates music with singing in the raw audio domain. We tackle the long context of raw audio using a multi-scale VQ-VAE to compress it to discrete codes, and modeling those using autoregressive Transformers. We show that the combined model at scale can generate high-fidelity and diverse songs with coherence up to multiple minutes. We can condition on artist and genre to steer the musical and vocal style, and on unaligned lyrics to make the singing more controllable. We are releasing thousands of non cherry-picked samples at https://jukebox.openai.com, along with model weights and code at https://github.com/openai/jukebox

研究の動機と目的

原音声の音楽生成における長距離の一貫性に対処する。
階層的VQ-VAEを用いて生のオーディオを離散コードに圧縮する。
離散コード上の自己回帰事前分布をトランスフォーマーを用いてモデル化する。
アーティスト、ジャンル、歌詞といった条件信号を用いて制御可能な生成を実現する。
多様なジャンルと歌唱スタイルにわたる生成を実証し、サンプルとコードを公開する。

提案手法

3レベルのVQ-VAEは44 kHzオーディオを離散コードに圧縮し、ホップ長は8、32、128、コードブックのサイズは2048。
スケーラブルなトランスフォーマーを用いて、離散コード上の自己回帰事前分布（トップレベルとアップサンプル）を訓練する。
メタデータ（アーティスト、ジャンル、タイミング）に対して事前分布を条件づけ、歌詞については歌詞トークンへのアテンションを用いたエンコーダ-デコーダ構成を使用する。
スペクトル損失とランダムリスタートを用いてコードブックの使用率と再構成忠実度を向上させる。
各圧縮段階で情報保持を最大化するため、レベルごとに別々のオートエンコーダを訓練する。
上位レベルのコードを条件付けして、より高いレベルから低いレベルへと順次オーディオを再構成するアップサンプラーを提供する。

実験結果

リサーチクエスチョン

RQ1単一のシステムで、原音声を用いた多様で高忠実度の歌唱を含む音楽をジャンルを超えて生成できるか？
RQ2階層的VQ-VAEと自己回帰事前分布は数分間にわたる長距離の音楽構造を捉えるか？
RQ3条件信号（アーティスト、ジャンル、タイミング、歌詞）は生成の指向性と歌唱の整合性向上にどれくらい効果的か？
RQ4モデル規模と学習データが、スタイルを超えた歌唱の聴き取りや音楽の音色に与える影響はどの程度か？
RQ5サンプリング戦略（祖先的、窓付き、プリムド）は出力の一貫性と多様性にどう影響するか？

主な発見

本モデルはロック、ヒップホップ、ジャズなどのジャンルで、数分にわたる一貫性を持つ楽曲を生成できる。
アーティスト、ジャンル、タイミングでの条件付けはエントロピーを低減し、スタイル別の生成を可能にする。歌詞の条件付けは歌唱出力を可能にする。
モデル容量の増加と44 kHz VQ-VAE、および大規模アップサンプラーは忠実度と歌唱の聴き取り能力を向上させるが、歌詞条件なしでは認識可能な単語の歌唱は依然難しい。
サンプリング手法（祖先的、窓付き、プリムド）は、制御可能な生成と既存の音声セグメントからの継続を可能にする。
本手法は多くのサンプルで一貫した和声と自然な韻律を生み出し、再演、補完、新しいスタイル/声の間で多様性と新規性が観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。