Skip to main content
QUICK REVIEW

[論文レビュー] PixelSNAIL: An Improved Autoregressive Generative Model

Xi Chen, Nikhil Mishra|arXiv (Cornell University)|Dec 28, 2017
Generative Adversarial Networks and Image Synthesis参考文献 6被引用数 54
ひとこと要約

PixelSNAILは因果畳み込みと自己注意を組み合わせ、CIFAR-10およびImageNet 32×32で最先端の密度推定を達成します。

ABSTRACT

Autoregressive generative models consistently achieve the best results in density estimation tasks involving high dimensional data, such as images or audio. They pose density estimation as a sequence modeling task, where a recurrent neural network (RNN) models the conditional distribution over the next element conditioned on all previous elements. In this paradigm, the bottleneck is the extent to which the RNN can model long-range dependencies, and the most successful approaches rely on causal convolutions, which offer better access to earlier parts of the sequence than conventional RNNs. Taking inspiration from recent work in meta reinforcement learning, where dealing with long-range dependencies is also essential, we introduce a new generative model architecture that combines causal convolutions with self attention. In this note, we describe the resulting model and present state-of-the-art log-likelihood results on CIFAR-10 (2.85 bits per dim) and $32 imes 32$ ImageNet (3.80 bits per dim). Our implementation is available at https://github.com/neocxi/pixelsnail-public

研究の動機と目的

  • 高次元データの自己回帰密度推定における長距離依存性のモデリングを改善する動機づけ。
  • 文脈をより適切に捉えるため、因果畳み込みと自己注意を統合したアーキテクチャを導入する。
  • 標準ベンチマーク(CIFAR-10およびImageNet 32×32)で最先端の対数尤度結果を示す。
  • 自己回帰モデリングの再現性とさらなる研究のためのオープンソース実装を提供する。

提案手法

  • マスク済み2D因果畳み込みの残差ブロックと自己注意ブロックを交互に配置するPixelSNAILアーキテクチャを提案する。
  • 各ブロックにつき4つの畳み込みと1つの256フィルターを使用した残差ブロックでゲート付き活性化を用いる。
  • 注意ブロックでは、キーサイズ16、値サイズ128のマスク済みの単一のキー-値ルックアップを行う。
  • 離散化混合ロジスティック出力で訓練する(CIFAR-10は10成分、ImageNetは32成分)とパラメータ安定化のためのPolyak平均化。
  • CIFAR-10モデルではドロップアウトを適用し、データセットサイズのためImageNetではドロップアウトを省略する;注意ブロックの射影には1×1畳み込みを実装する。
  • 指定されたリポジトリにPixelSNAILを実装した公開コードを提供する。

実験結果

リサーチクエスチョン

  • RQ1因果畳み込みと自己注意を組み合わせることで自己回帰画像モデルの密度推定が改善されるか?
  • RQ2標準ベンチマーク(CIFAR-10およびImageNet 32×32)におけるPixelSNAILの性能は、従来の自己回帰モデルと比べてどうか?
  • RQ3ブロック深さ、注意設定、ミックス成分などのアーキテクチャの選択が対数尤度性能に与える影響は何か?

主な発見

  • PixelSNAILはCIFAR-10で2.85 bits per dim、ImageNet 32×32で3.80 bits per dimを達成し、従来の自己回帰モデルを上回る。
  • PixelRNN、PixelCNN、PixelCNN++、Image Transformerと比較して、因果畳み込みと注意を統合したPixelSNAILが最良の対数尤度結果を示す。
  • アブレーション風の結果は、因果畳み込みと自己注意の双方が、いずれか一方の成分のみを用いたモデルより性能向上に寄与することを示唆する。
  • 本モデルには再現性のための公開可能なコードが含まれている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。