Skip to main content
QUICK REVIEW

[論文レビュー] PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications

Tim Salimans, Andrej Karpathy|arXiv (Cornell University)|Jan 19, 2017
Brain Tumor Detection and Classification被引用数 567
ひとこと要約

PixelCNN++ は離散化されたロジスティック混合尤度と追加の構造的改変(全画素 conditioning, skip 連結によるダウンサンプリング, ドロップアウト)を導入し CIFAR-10 に対する PixelCNN の性能を向上させ、最先端の対数尤度を達成する。

ABSTRACT

PixelCNNs are a recently proposed class of powerful generative models with tractable likelihood. Here we discuss our implementation of PixelCNNs which we make available at https://github.com/openai/pixel-cnn. Our implementation contains a number of modifications to the original model that both simplify its structure and improve its performance. 1) We use a discretized logistic mixture likelihood on the pixels, rather than a 256-way softmax, which we find to speed up training. 2) We condition on whole pixels, rather than R/G/B sub-pixels, simplifying the model structure. 3) We use downsampling to efficiently capture structure at multiple resolutions. 4) We introduce additional short-cut connections to further speed up optimization. 5) We regularize the model using dropout. Finally, we present state-of-the-art log likelihood results on CIFAR-10 to demonstrate the usefulness of these modifications.

研究の動機と目的

  • PixelCNN ファミリの改善を動機づけ、画像のより扱いやすい尤度と知覚品質を向上させる。
  • 訓練を高速化し収束を改善しつつ、モデル構造を単純化する。
  • パフォーマンスを向上させるためのマルチ解像度処理と正則化技術を探求する。
  • 提案された変更で CIFAR-10 における最先端の対数尤度を実証する。

提案手法

  • ピクセル尤度には 256-way softmax の代わりに離散化されたロジスティック分布の混合を用いる。
  • 全ピクセル(R,G,B を一緒に)に条件づけ、前のチャネルに対して線形にチャネル依存をモデル化する。
  • ストライド-2 の畳み込みを用いたダウンサンプリングを取り入れ、マルチ解像度構造を捉える。
  • ダウンサンプリング/アップサンプリングによって失われた情報を回復するために長距離ショートカット接続を追加する。
  • 過剰適合を抑え、生成品質を向上させるためにドロップアウト正則化を適用する。

実験結果

リサーチクエスチョン

  • RQ1離散化されたロジスティック混合尤度は訓練速度と対数尤度性能において softmax とどう比較されるか?
  • RQ2全ピクセルとサブピクセルへの条件付けがモデル容量とサンプル品質に与える影響は?
  • RQ3ダウンサンプリングとショートカット接続は、マルチ解像度モデリングにおいて膨張畳み込みと同程度の利点を提供するか。
  • RQ4ドロップアウトが訓練の安定性と生成画像品質に与える影響は?
  • RQ5PixelCNN++ およびその変種で CIFAR-10 における最先端の対数尤度の結果はどのようなものか?

主な発見

  • PixelCNN++ は CIFAR-10 で 2.92 bits per sub-pixel を達成し、従来の PixelCNN バリアントより改善している。
  • クラス条件付き PixelCNN++ は 2.94 bits per sub-pixel を達成し、質的にクラス区別サンプルを示す。
  • softmax ベースのアブレーションはこの設定でより遅く訓練され、離散化ロジスティック混合より効率的でない。
  • 連続混合デクオンティゼーションは次元あたり 3.11 bits の変分下限をもたらし、離散化尤度より悪い。
  • ショートカット接続を削除すると訓練の進行が停止し、ダウンサンプリングとともにそれらの重要性を浮き彫りにする。
  • ドロップアウトがないと過学習と知覚的画像品質の低下を招き、訓練 likelihood が高くても悪影響。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。