QUICK REVIEW

[論文レビュー] PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications

Tim Salimans, Andrej Karpathy|arXiv (Cornell University)|Jan 19, 2017

Generative Adversarial Networks and Image Synthesis参考文献 21被引用数 75

ひとこと要約

PixelCNN++ は PixelCNN を、離散化されたロジスティック混合尤度、全ピクセル条件付け、ダウンサンプリング、スキップ接続、およびドロップアウトを採用して強化し、CIFAR-10 の対数尤度で最先端を達成する。

ABSTRACT

PixelCNNs are a recently proposed class of powerful generative models with tractable likelihood. Here we discuss our implementation of PixelCNNs which we make available at https://github.com/openai/pixel-cnn. Our implementation contains a number of modifications to the original model that both simplify its structure and improve its performance. 1) We use a discretized logistic mixture likelihood on the pixels, rather than a 256-way softmax, which we find to speed up training. 2) We condition on whole pixels, rather than R/G/B sub-pixels, simplifying the model structure. 3) We use downsampling to efficiently capture structure at multiple resolutions. 4) We introduce additional short-cut connections to further speed up optimization. 5) We regularize the model using dropout. Finally, we present state-of-the-art log likelihood results on CIFAR-10 to demonstrate the usefulness of these modifications.

研究の動機と目的

ピクセルの離散化されたロジスティック混合尤度を用いて、PixelCNN の学習速度と性能を向上させる。
全ピクセルを条件付けし、多解像度処理を用いることでモデルを簡略化する。
ダウンサンプリングとスキップ接続により最適化効率を向上させる。
ドロップアウトで正則化し、過学習を防ぎサンプル品質を向上させる。
CIFAR-10 における最先端の対数尤度結果を実証する。

提案手法

ピクセル尤度のために 256-way softmax の代わりに、離散化されたロジスティック分布の混合を用いる。
サブピクセルではなく、全ピクセル（R,G,B を結合して）を条件付け、チャネル間の依存性を持たせる。
多解像度構造を捉えるためにダウンサンプリング（stride-2 の畳み込み）を導入し、長距離のスキップ接続を用いる。
ダウンサンプリングで失われた情報を回復するために、非隣接ブロック間のショートカット接続を組み込む。
最初の畳み込みの後の残差経路に対してドロップアウトを正則化として適用する。

実験結果

リサーチクエスチョン

RQ1離散化されたロジスティック混合尤度は、PixelCNN において softmax より学習速度と性能を改善するか。
RQ2全ピクセルでの条件付けとスキップ接続を伴う多解像度ダウンサンプリングは、自然画像のモデリングを維持または改善できるか。
RQ3正則化（ドロップアウト）が生成画像の品質と対数尤度に与える影響は何か。
RQ4以前の自己回帰モデルと比較して、CIFAR-10 における PixelCNN++ の対数尤度はどうか。
RQ5重要な構成要素（softmax、ダウンサンプリング、スキップ接続、ドロップアウト）を取り除いたアブレーションでは、性能はどうなるか。

主な発見

モデル	サブピクセルあたりのビット
Deep Diffusion	5.40
NICE	4.48
DRAW	4.13
Deep GMMs	4.00
Conv DRAW	3.58
Real NVP	3.49
PixelCNN	3.14
VAE with IAF	3.11
Gated PixelCNN	3.03
PixelRNN	3.00
PixelCNN++	2.92

PixelCNN++ で CIFAR-10 における最先端の対数尤度を、sub-pixel あたり 2.92 bits で達成。
離散化されたロジスティック混合尤度は 256-way softmax より訓練を速くし、勾配をより密にする。
追加のショートカット接続を備えたダウンサンプリングは、拡張畳み込みの性能に匹敵しつつ計算効率に優れる。
ドロップアウト正則化により、高容量モデルが過学習なしに効果的に学習できる。
クラス条件付き生成は、モデルがクラスごとに区別されたサンプルを生成することを示している（例：CIFAR-10 のクラス）。
小さな受容野で十分な容量を持つと競争力のある対数尤度を達成でき、容量を増強する変種（NIN ブロック、自己回帰チャネル）が結果を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。