QUICK REVIEW

[論文レビュー] Multi-objects Generation with Amortized Structural Regularization

Taufik Xu, Chongxuan Li|arXiv (Cornell University)|Jan 1, 2019

Generative Adversarial Networks and Image Synthesis被引用数 5

ひとこと要約

本稿では、後方正則化を用いて人間が提供する構造的制約を深層生成モデル（DGM）に統合する、償還的構造的正則化（ASR）を提案する。これにより、画像内のオブジェクトの属性と関係性のモデリングが向上する。正則化された対数尤度の下界を用いて生成モデルと補助的認識モデルを同時に最適化することで、ASRはDGMのベースラインと比較して優れたサンプル品質と推論性能を達成する。

ABSTRACT

Deep generative models (DGMs) have shown promise in image generation. However, most of the existing methods learn a model by simply optimizing a divergence between the marginal distributions of the model and the data, and often fail to capture rich structures, such as attributes of objects and their relationships, in an image. Human knowledge is a crucial element to the success of DGMs to infer these structures, especially in unsupervised learning. In this paper, we propose amortized structural regularization (ASR), which adopts posterior regularization (PR) to embed human knowledge into DGMs via a set of structural constraints. We derive a lower bound of the regularized log-likelihood in PR and adopt the amortized inference technique to jointly optimize the generative model and an auxiliary recognition model for inference efficiently. Empirical results show that ASR outperforms the DGM baselines in terms of inference performance and sample quality.

研究の動機と目的

オブジェクトの属性や空間的関係性といった複雑な画像構造を捉えることのできない既存のDGMの限界を解決すること。
教師なし深層生成モデルに人間が提供する構造的知識を統合し、構造の正確性を向上させること。
償還推論を用いて生成モデルと認識モデルを同時に最適化する効率的な推論メカニズムを開発すること。
後方正則化を用いて構造的制約を埋め込むことで、画像生成におけるサンプル品質と推論性能を向上させること。
教師なし設定において、人間がアノテートした構造的事前知識とエンドツーエンドの深層生成モデリングのギャップを埋めること。

提案手法

後方正則化（PR）を用いて、DGMの潜在空間に人間が提供する構造的制約を埋め込む。
制約付き目的関数の微分可能な最適化を可能にするために、正則化された対数尤度の下界を導出する。
償還推論を用いて、生成モデルと補助的認識モデルを同時に学習させ、計算コストを低減する。
変分下界として学習目的を定式化し、構造的制約を正則化項として組み込む。
確率的勾配降下法を用いてモデルをエンドツーエンドで最適化し、画像データセットにおけるスケーラブルな学習を可能にする。
構造的制約をソフトな正則化項として定義し、モデルが分離可能で意味的に明確な表現を学習できるように導く。

実験結果

リサーチクエスチョン

RQ1人間が提供する構造的制約は、教師なし学習における生成画像の品質と分離性を向上させることができるか？
RQ2償還推論を用いた後方正則化は、オブジェクトの属性と関係性をモデリングする点で、標準的なDGMと比較してどのように異なるか？
RQ3構造的事前知識を組み込むことで、推論性能とサンプルの多様性はどの程度向上するか？
RQ4完全な教師信号を必要とせずに、構造的制約を深層生成モデルに効果的に統合できるか？
RQ5異なる種類の構造的制約は、モデルの現実的で構造的な画像生成能力にどのような影響を与えるか？

主な発見

FID や Inception スコアなどの指標で測定したところ、ASRは標準的なDGMベースラインと比較して顕著に優れたサンプル品質を達成した。
人間の知識の統合により、より構造的で分離可能な表現を学習することで、推論性能が向上した。
実験結果から、ASRが生成画像内のオブジェクトの属性と空間的関係性を効果的に捉えていることが示された。
償還推論の使用により、生成モデルと認識モデルの効率的かつ同時最適化が可能になり、スケーラビリティが維持された。
正則化された下界のおかげで、複数のベンチマークで安定した学習と、ベースラインDGMに対する一貫した性能向上が達成された。
明示的なオブジェクトレベルの属性に関する教師信号がなくても、ASRは標準的なDGMを上回る性能を示しており、弱教師付きの構造的事前知識の有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。