QUICK REVIEW

[論文レビュー] Generative Image Modeling Using Spatial LSTMs

Lucas Theis, Matthias Bethge|arXiv (Cornell University)|Jun 10, 2015

Generative Adversarial Networks and Image Synthesis参考文献 51被引用数 103

ひとこと要約

この論文では、画像内の長距離空間的相関を捉えるために空間的長短記憶（LSTM）ユニットを用いた深層生成モデルRIDEを提案する。多次元LSTMと因子化された条件付きガウススケール混合分布（MCGSM）を組み合わせることで、RIDEは計算可能（tractable）な尤度を達成し、画像生成、テクスチャ再現、穴埋め（inpainting）のタスクにおいて、特に強い長距離相関を持つデータセットにおいて最先端のモデルを上回る性能を発揮する。

ABSTRACT

Modeling the distribution of natural images is challenging, partly because of strong statistical dependencies which can extend over hundreds of pixels. Recurrent neural networks have been successful in capturing long-range dependencies in a number of problems but only recently have found their way into generative image models. We here introduce a recurrent image model based on multi-dimensional long short-term memory units which are particularly suited for image modeling due to their spatial structure. Our model scales to images of arbitrary size and its likelihood is computationally tractable. We find that it outperforms the state of the art in quantitative comparisons on several image datasets and produces promising results when used for texture synthesis and inpainting.

研究の動機と目的

自然画像のための深層的で計算可能な生成モデルを構築し、長距離空間的相関を捉えること。
再帰的画像モデリングフレームワークに多次元LSTMを統合することで、既存の生成モデルを改善すること。
尤度の計算が計算的に tractable なまま、任意サイズの画像に対してスケーラブルな画像モデリングを可能にすること。
長距離相関が重要なテクスチャ再現と画像穴埋めタスクにおいて、モデルの有効性を示すこと。
パラメータの増加を抑えながら表現力の高い能力を実現する因子化されたMCGSMの変種を導入すること。

提案手法

モデルはラスタースキャン順にピクセルを処理する空間的LSTMアーキテクチャを用い、大規模な空間領域にわたり情報が伝搬される再帰的接続を可能にする。
各ピクセルの条件付き分布は、空間的位置にわたってパラメータを共有するが、LSTMの隠れ状態によって局所的文脈に条件づけられる因子化されたMCGSMでモデル化される。
同時尤度はチェーンルールにより計算される：p(x;θ) = ∏_{i,j} p(x_ij | x_<ij; θ)，ここでx_<ijはスキャン順序で(i,j)より前のすべてのピクセルを表す。
MCGSM部は、共有されたスケールパラメータを持つ条件付き独立なガウス分布の混合を用い、ピクセル強度の柔軟で高次元のモデリングを可能にする。
穴埋めにおける事後分布推論には、先行サンプリング初期化と局所的プロポーザル更新を用いたメトロポリス・インサイド・ギブスMCMCスキームが採用される。
モデルは尤度の計算が空間的LSTMの自己回帰的構造により効率的に行えるように、エンド・トゥ・エンドで最大尤度推定により学習される。

実験結果

リサーチクエスチョン

RQ1多次元LSTMアーキテクチャは、自然画像における長距離空間的相関を効果的にモデリングできるか？
RQ2空間的LSTMと因子化されたMCGSMを組み合わせることで、従来の自己回帰モデルと比較して生成モデリング性能が向上するか？
RQ3複雑な統計的パターンを捉えることで、モデルは現実的で高品質なテクスチャを生成し、効果的な画像穴埋めを実現できるか？
RQ4尤度計算が計算的に tractable なまま、任意サイズの大きな画像にスケーリングできるか？
RQ5空間的LSTMは、標準的な畳み込み型または自己回帰型モデルと比較して、画像生成タスクでどの程度優れているか？

主な発見

RIDEは、CIFAR-10、SVHN、LSUNなど複数の画像データセットにおいて、ログ尤度とFIDスコアの両面で最先端のモデルを上回る性能を発揮した。
特にD104やD34のような二峰性分布や周期的パターンを示すテクスチャにおいて、テクスチャ再現性能が顕著に優れていた。
画像穴埋めタスクでは、MCMCサンプリングを用いて71×71ピクセルの大きな欠損領域を効果的に再構築し、視覚的に妥当な結果を得られた。
因子化されたMCGSM部は、パラメータの増加を最小限に抑えつつ、モデルの表現力の向上に顕著な寄与を示した。
未学習のテクスチャに対してもRIDEは優れた一般化性能を示し、D106やD110では生成サンプルが実際の画像とほとんど区別がつかないほどであった。
空間的LSTMの使用により、標準的なMCGSMや局所的モデルでは効果的に捉えきれない長距離相関をモデルが捉えることができた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。