QUICK REVIEW

[論文レビュー] Hierarchical Autoregressive Image Models with Auxiliary Decoders

Jeffrey De Fauw, Sander Dieleman|arXiv (Cornell University)|Mar 6, 2019

Generative Adversarial Networks and Image Synthesis参考文献 55被引用数 26

ひとこと要約

この論文は、尤度ベースの生成モデルにおける大規模構造の整合性を向上させるために補助デコーダを備えた階層的自己回帰的画像モデルを提案する。ベクトル量子化を用いて離散的・抽象的な画像表現を学習し、これらのコード上で自己回帰的事前分布を訓練することで、128×128および256×256解像度において高精細でクラス条件付きの生成が可能となり、従来の尤度ベースモデルよりも構造的整合性に優れる一方、モード崩壊を回避する。

ABSTRACT

Autoregressive generative models of images tend to be biased towards capturing local structure, and as a result they often produce samples which are lacking in terms of large-scale coherence. To address this, we propose two methods to learn discrete representations of images which abstract away local detail. We show that autoregressive models conditioned on these representations can produce high-fidelity reconstructions of images, and that we can train autoregressive priors on these representations that produce samples with large-scale coherence. We can recursively apply the learning procedure, yielding a hierarchy of progressively more abstract image representations. We train hierarchical class-conditional autoregressive models on the ImageNet dataset and demonstrate that they are able to generate realistic images at resolutions of 128$ imes$128 and 256$ imes$256 pixels. We also perform a human evaluation study comparing our models with both adversarial and likelihood-based state-of-the-art generative models.

研究の動機と目的

局所的相関に偏る自己回帰的モデルが大規模画像構造を捉える能力に欠けるという制限に対処する。
自己回帰的オートエンコーダにおけるエンドツーエンド学習の不安定性および失敗モードを克服する。
異なる画像抽象化レベルにモデル容量を割り当てられるスケーラブルで階層的なフレームワークを開発する。
生成モデルのモード崩壊を回避しつつ、尤度ベースの学習のみを用いて高精細でクラス条件付きの画像生成を可能にする。

提案手法

局所的詳細を抽象化する離散的かつ有界な画像表現を学習するために、ベクトル量子化（VQ）ボトルネックを用いる。
エンドツーエンドの自己回帰的訓練を不安定化させないよう、補助デコーダ（フィードフォワードネットワークまたはマスクド自己予測（MSP））を用いて表現学習を監視する。
各レベルが空間解像度を低くしつつ、徐々に抽象化されたコードを生成する階層的アーキテクチャを構築する。
高レベルの構造をモデル化するための強力な自己回帰的事前分布を離散的コード上で訓練し、ピクセルレベルの再構成には小さなデコーダを用いる。
自己回帰的事前分布にマスクド自己注意層を適用し、モデル化能力と長距離依存性を向上させる。
ピクセル空間およびコード空間の両方で同時尤度学習を実施し、高精細な再構成と整合性のある生成を保証する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの自己回帰的訓練を不安定化させることなく、補助デコーダが離散的画像表現を効果的に学習できるか？
RQ2抽象的コードに条件付けられた階層的自己回帰モデルが、現実的で高解像度の画像を大規模構造の整合性を保って生成できるか？
RQ3フィードフォワードとマスクド自己予測（MSP）デコーダは、階層的モデリングに有用な画像表現を学習する上で、どのように比較されるか？
RQ4尤度ベースのモデルは、モード崩壊を回避しつつ、敵対的モデルと同等の視覚的精細度を達成できるか、その程度はどの程度か？

主な発見

補助デコーダを備えた階層的自己回帰モデルは、128×128および256×256のクラス条件付き画像を、高い知覚的品質と大規模構造の整合性をもって効果的に生成できた。
人間評価では、MSPベースのモデルのサンプルが、BigGANのサンプルよりも22.89%のペアワイズ比較で好まれ、高い現実性を示した。
128×128画像において、インセプションスコア（IS）は18.10 ± 0.96、FIDは44.95を達成し、より小さいImageNet解像度で最良のPixelCNNと同等の性能を示した。
ピクセルとコードの両空間における同時負の対数尤度（NLL）は3.343ビット/次元であり、強い尤度モデリング性能を示した。
敵対的モデルほどISやFIDが高くないものの、階層的アプローチはモード崩壊を回避し、構造的抽象化に対するより良い制御を可能にした。
人間評価において、モデルのサンプルはピクセルスケールのネットワークよりも現実的であり、BigGANとほぼ同等の評価を得たが、これは尤度ベースの学習のみを用いたにもかかわらずである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。