QUICK REVIEW

[論文レビュー] Neural Discrete Representation Learning

Aäron van den Oord, Oriol Vinyals|arXiv (Cornell University)|Nov 2, 2017

Speech Recognition and Synthesis被引用数 1,919

ひとこと要約

VQ-VAEを導入する。ベクトル量子化によって学習される離散潜在変数を持つ変分オートエンコーダで、後方崩壊を回避し、自己回帰事前分布により高品質な生成を可能にする。

ABSTRACT

Learning useful representations without supervision remains a key challenge in machine learning. In this paper, we propose a simple yet powerful generative model that learns such discrete representations. Our model, the Vector Quantised-Variational AutoEncoder (VQ-VAE), differs from VAEs in two key ways: the encoder network outputs discrete, rather than continuous, codes; and the prior is learnt rather than static. In order to learn a discrete latent representation, we incorporate ideas from vector quantisation (VQ). Using the VQ method allows the model to circumvent issues of "posterior collapse" -- where the latents are ignored when they are paired with a powerful autoregressive decoder -- typically observed in the VAE framework. Pairing these representations with an autoregressive prior, the model can generate high quality images, videos, and speech as well as doing high quality speaker conversion and unsupervised learning of phonemes, providing further evidence of the utility of the learnt representations.

研究の動機と目的

画像・音声・動画全般で監視なしに有用な表現を学習する動機付け。
強力なデコーダで見られる後方崩壊を克服する離散潜在VAEを開発する。
離散的潜在変数が連続VAEに匹敵する尤度を示しつつ、生成のための強い priors を提供できることを示す。
画像/動画生成、音声理解、教師なしスピーカー変換などの応用を実証する。

提案手法

潜在埋め込み空間 e を R^{K x D} の K 個の離散コードを用いて定義する。
エンコーダは z_e(x) を出力し、z は埋め込み空間 e に対する最近傍探索によって得られる（z_q(x)=e_k）。
三項ロスで訓練する：再構成 log p(x|z_q(x))、e をエンコーダ出力へ近づける VQ ロス、エンコーダ出力を埋め込みに近づけるコミットメントロス（ストップグラデient を使用）。
離散量子化ステップを通じて勾配を伝播させるストレートスルーエスティメータを用いる。
z に対する一様事前分布を仮定して KL 項を定数化し、その後 z に対して自己回帰事前分布を適合させる（画像は PixelCNN、音声は WaveNet）。生成のため。
log p(x) を近似として log p(x|z_q(x)) p(z_q(x)) で評価し、連続VAEと比較する。

実験結果

リサーチクエスチョン

RQ1離散潜在 VAE（VQ-VAE）は標準データセットで連続 VAE と競合する対数尤度を達成できるか？
RQ2強力なデコーダを用いた場合に離散化した潜在変数は後方崩壊を回避しつつ再構成品質を保てるか？
RQ3離散潜在変数上の学習済み自己回帰事前分布は画像・音声・動画で一貫した高品質生成を可能にするか？
RQ4離散的潜在表現は監視なしで意味のある高レベル構造（例：音声の音素）を捉えるか？

主な発見

VQ-VAE は CIFAR-10 で連続 VAE に対して競合的な尤度を達成する（VQ-VAE は 4.67 bits/dim、連続 VAE は 4.51 bits/dim、4.51 ではなく 5.14 は VIMCO）。
離散潜在は ImageNet (128x128x3) 上で高品質な再構成を可能にする。32x32x1 潜在空間（K=512）と PixelCNN prior を用いる。
音声については低レベルの波形詳細に不変な潜在空間を学習し、非監督の音素様構造を支持し、別の話者埋め込みを用いた話者変換を可能にする。
動画モデリングでは、潜在空間は学習済み priors から z をサンプルしてフレームへデコードすることで長期シーケンス生成をサポートし、ピクセルレベルの生成なしに局所的な幾何を維持する。
本モデルは後方崩壊を回避し、VQ による単純で堅牢なトレーニング手法と、コミットメント項を含む直接的な辞書更新を用いる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。