QUICK REVIEW

[論文レビュー] Latent Normalizing Flows for Discrete Sequences

Zachary M. Ziegler, Alexander M. Rush|arXiv (Cornell University)|Jan 29, 2019

Music and Audio Processing被引用数 46

ひとこと要約

本論文は、潜在空間正規化フローを離散的な入力なしの生成モデルと組み合わせて離散系列をモデル化するVAEベースの枠組みを提案し、マルチモーダルな潜在ダイナミクスと高速な非自己回帰生成を実現します。

ABSTRACT

Normalizing flows are a powerful class of generative models for continuous random variables, showing both strong model flexibility and the potential for non-autoregressive generation. These benefits are also desired when modeling discrete random variables such as text, but directly applying normalizing flows to discrete sequences poses significant additional challenges. We propose a VAE-based generative model which jointly learns a normalizing flow-based distribution in the latent space and a stochastic mapping to an observed discrete space. In this setting, we find that it is crucial for the flow-based distribution to be highly multimodal. To capture this property, we propose several normalizing flow architectures to maximize model flexibility. Experiments consider common discrete sequence tasks of character-level language modeling and polyphonic music generation. Our results indicate that an autoregressive flow-based model can match the performance of a comparable autoregressive baseline, and a non-autoregressive flow-based model can improve generation speed with a penalty to performance.

研究の動機と目的

離散系列ダイナミクスをモデル化するために、柔軟でマルチモーダルな潜在フローの使用を動機づける。
連続潜在変数の事前分布が離散系列構造を捉える潜在フローVAEを開発する。
マルチモダリティを最大化しつつ、サンプリングと密度評価のトレードオフを異なる方法で有効にする3つのフロー構成を提案・比較する。
時系列における自己回帰フロー variants は自己回帰ベースラインに匹敵できることを示し、非自己回帰 variants は生成速度を向上させる。
文字レベルの言語モデリングと多声音楽モデリングに関する実証的証拠を提供する。

提案手法

正規化フロー prior p(z1:T) によって生成される連続潜在系列 z1:T を用いたVAEフレームワークを使用する。
入力なしの放出機構で p(x1:T|z1:T) をモデル化し、フローが主要な生成ダイナミクスを担うようにする。
3つのフロー構成を探索する：AF in time with AF in hidden (AF/AF), AF in time with SCF in hidden (AF/SCF), and IAF in time with SCF in hidden (IAF/SCF)。
非線形二乗変換（NLSq）を用いた拡張によりマルチモーダリティを増加させる。
対歩推論による推定で対角ガウスエンコーダ q(z1:T|x1:T) を用い、ELBO を最適化する。
PTB の文字レベル言語モデリングと複数データセットにまたがるポリフォニック音楽モデリングを評価し、自己回帰ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1潜在空間正規化フローは、自己回帰デコーダに依存せずに離散系列のマルチモーダルなダイナミクスをモデル化できるか。
RQ2連続潜在表現を離散系列へ写像しつつ、効率的な（非自己回帰）生成を可能にするために、どのフロー構成がマルチモーダリティを最もよく捉えるか。
RQ3文字レベル言語モデリングとポリフォニック音楽モデリングにおける潜在フロー・モデルの性能は、自己回帰ベースラインとどのように比較されるか？

主な発見

モデル	テストNLL	再構成	KL	(bpc)
LSTM	1.38	-	-	-
AWD-LSTM	1.18	-	-	-
LSTM (sentence-wise)	1.41	-	-	-
AF-only	2.90	0.15	2.77	-
AF/AF	1.42	0.10	1.37	-
AF/SCF	1.46	0.10	1.43	-
IAF/SCF	1.63	0.21	1.55	-
AF/AF (abl.)	1.42	0.10	1.37	-
- NLSq	1.50	0.11	1.51	-
- AF hidden	1.57	0.14	1.57	-
- AF hidden and NLSq	1.56	0.29	1.56	-
AF/AF (Nottingham)	2.39	-	-	-
AF/SCF (Nottingham)	2.56	-	-	-
IAF/SCF (Nottingham)	2.54	-	-	-

自己回帰フローモデル（AF/AF）はPTBの文字レベル言語モデリングでLSTMベースラインにほぼ匹敵する。
AF/SCFおよびIAF/SCFは競合的または遅い性能を示し、非自己回帰バリアントはスピードと引き替えにいくらかの精度を犠牲にする。
KL項がモデル全体のELBOを支配し、離散トークンを予測する際に潜在空間へ大きく依存していることを示している。
非線形二乗（NLSq）フローはマルチモーダリティを高め、複数のアブレーション設定で純粋なアフィンフローよりモデリングを改善する。
ポリフォニック音楽タスクでは、AF/AF がしばしばいくつかのベースラインを上回り NottinghamのRNN-NADEに近づく一方、AF/SCF は一般的に性能が近い。
非自己回帰生成（例：IAF/SCF）は自己回帰ベースラインと比較して文レベルの生成で速度向上を達成し、いくつかの精度とのトレードオフが生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。