QUICK REVIEW

[論文レビュー] Deep Generative Models with Learnable Knowledge Constraints

Zhiting Hu, Zichao Yang|arXiv (Cornell University)|Jun 26, 2018

Topic Modeling被引用数 40

ひとこと要約

論文は posterior regularization (PR) を強化学習の1形態として再解釈し、深層生成モデルを導く制約を学習できるモデル非依存の知識制約を画像とテキスト生成の両方に提供する。RLベースのアルゴリズムを提案し、制約関数 f_phi を学習し、生成モデル p_theta（暗黙モデルを含む）を訓練する。

ABSTRACT

The broad set of deep generative models (DGMs) has achieved remarkable advances. However, it is often difficult to incorporate rich structured domain knowledge with the end-to-end DGMs. Posterior regularization (PR) offers a principled framework to impose structured constraints on probabilistic models, but has limited applicability to the diverse DGMs that can lack a Bayesian formulation or even explicit density evaluation. PR also requires constraints to be fully specified a priori, which is impractical or suboptimal for complex knowledge with learnable uncertain parts. In this paper, we establish mathematical correspondence between PR and reinforcement learning (RL), and, based on the connection, expand PR to learn constraints as the extrinsic reward in RL. The resulting algorithm is model-agnostic to apply to any DGMs, and is flexible to adapt arbitrary constraints with the model jointly. Experiments on human image generation and templated sentence generation show models with learned knowledge constraints by our algorithm greatly improve over base generative models.

研究の動機と目的

豊富で構造化されたドメイン知識を、完全に指定された事前分布を超えて、さまざまな深層生成モデル（DGM）に統合する動機づけ。
トレーニング中に適応する学習可能な制約をサポートするよう、PRを拡張する。
データから制約関数を学習するために、最大エントロピー IRL をはじめとする強化学習の洞察を活用する。
暗黙的・明示的 DGM の両方で動作する実用的でモデル非依存のアルゴリズムを開発する。
画像（ポーズ条件付き人物画像）とテキスト（テンプレート誘導）タスクで生成の改善を実証する。

提案手法

PRとエントロピー正則化RL、およびPRとMaxEnt IRLとの間の数学的対応を確立する。
制約を学習可能な関数 f_phi(x) として表現し、EM風の手法で最適化する。
f_phi の学習を MaxEnt IRL における報酬学習として扱い、p_theta を提案分布として重要度サンプリングを活用する勾配推定を用いる。
p_theta が暗黙的な場合、密度評価を回避するために reverse KL を最小化する（対抗的訓練の直感に合わせる）。
制約パラメータ φ を反復的に更新する（Eq. 8 を用いて）とともに、生成モデルパラメータ θ を Eq. 12 または Eq. 10（密度評価可能性に依存）で更新する。
エネルギーベースモデルとGANs へのフレームワークの関連を示し、q_phi がエネルギーベース分布を近似し、生成器が制約を欺くように動くことを強調する。

実験結果

リサーチクエスチョン

RQ1学習可能で構造化された制約を、完全に指定された priors を必要とせず、深い生成モデルと共同で学習できるか。
RQ2PR–RL の対応付けは、暗黙的および明示的 DGMs のいずれに対しても、実用的でスケーラブルな制約学習を可能にするか。
RQ3学習された構造保持制約は、ベースモデルや固定制約と比べて、画像およびテキストタスクの生成品質を向上させるか。
RQ4MaxEnt IRL の手法を用いて、デモやデータ分布から制約関数を学習する際、DGMs の文脈でどのように活用できるか。

主な発見

モデル	SSIM	人間
Ma et al. [38]	0.614	—
Pumarola et al. [44]	0.747	—
Ma et al. [37]	0.762	—
Base model	0.676	0.03
With fixed constraint	0.679	0.12
With learned constraint	0.727	0.77

学習された制約は、画像とテキストの両タスクでベースモデルより生成品質を向上させる。
ポーズ条件付き人物画像生成では、学習された体の部位の整合性制約は、ベースおよび固定制約のベースラインより高いSSIMと人間の嗜好をもたらす（SSIM: 0.727 は学習済み制約、0.676 はベース; 人間: 0.77 vs 0.03）。
テンプレート誘導文生成では、学習された制約がベースモデルおよび直接の制約学習より困難度(perplexity)と人間評価を改善する。
この手法は、逆KL目的と重要度サンプリングに基づく勾配推定を用いることで、暗黙的モデルにも有効である。
学習された制約は、敵対的設定における識別器に類似して機能するが、フレームワークは生成器の改善に焦点をあてたモデル非依存の立場を維持する。
実験結果は、学習された制約とともに滑らかな収束と安定した訓練を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。