QUICK REVIEW

[论文解读] Deep Generative Models with Learnable Knowledge Constraints

Zhiting Hu, Zichao Yang|arXiv (Cornell University)|Jun 26, 2018

Topic Modeling被引用 40

一句话总结

该论文将后验正则化（PR）重新表述为一种强化学习的形式，以学习引导深度生成模型的约束，从而实现对图像和文本生成的模型无关、可学习的知识约束。它提出了一种基于RL的算法来学习约束函数 f_phi 并训练生成模型 p_theta（包括隐式模型）。

ABSTRACT

The broad set of deep generative models (DGMs) has achieved remarkable advances. However, it is often difficult to incorporate rich structured domain knowledge with the end-to-end DGMs. Posterior regularization (PR) offers a principled framework to impose structured constraints on probabilistic models, but has limited applicability to the diverse DGMs that can lack a Bayesian formulation or even explicit density evaluation. PR also requires constraints to be fully specified a priori, which is impractical or suboptimal for complex knowledge with learnable uncertain parts. In this paper, we establish mathematical correspondence between PR and reinforcement learning (RL), and, based on the connection, expand PR to learn constraints as the extrinsic reward in RL. The resulting algorithm is model-agnostic to apply to any DGMs, and is flexible to adapt arbitrary constraints with the model jointly. Experiments on human image generation and templated sentence generation show models with learned knowledge constraints by our algorithm greatly improve over base generative models.

研究动机与目标

将丰富的、结构化的领域知识整合到多种深度生成模型（DGM）中，而非仅依赖完全指定的先验。
扩展后验正则化（PR），以支持在训练过程中自适应的可学习约束。
利用强化学习的洞见，特别是最大熵 IRL，从数据中学习约束函数。
开发一个实用、模型无关的算法，适用于隐式和显式的 DGM。
展示在图像姿态条件的人物图像和文本模板引导任务中的生成提升。

提出的方法

建立 PR 与熵正则化 RL 之间的数学对应，以及 PR 与 MaxEnt IRL 之间的对应关系。
将约束表示为可学习的函数 f_phi(x)，并通过 EM 风格程序进行优化。
将学习 f_phi 视为 MaxEnt IRL 中的回报学习，使用利用 p_theta 作为提案的 importance sampling 的梯度估计。
当 p_theta 为隐式时，采取反向 KL 最小化以避免密度评估，与对抗训练直觉保持一致。
迭代更新约束参数 phi（通过 Eq. 8）和生成模型参数 theta（通过 Eq. 12 或 Eq. 10，取决于密度可评估性）。
将该框架与能量基模型和 GANs 联系起来，强调 q_phi 如何近似一个能量基分布以及生成器如何努力欺骗约束。

实验结果

研究问题

RQ1可学习的、结构化约束是否可以与深度生成模型联合学习，以在不需要完全指定的先验的情况下编码领域知识？
RQ2PR–RL 对应是否能够实现对隐式和显式 DGM 的此类约束的实际、可扩展学习？
RQ3相比基础模型和固定约束，学得的、保持结构的约束是否提升了图像与文本任务的生成质量？
RQ4在 DGM 的背景下，如何使用最大熵 IRL 技术从演示或数据分布中学习约束函数？

主要发现

模型	SSIM	人类
Ma et al. [38]	0.614	—
Pumarola et al. [44]	0.747	—
Ma et al. [37]	0.762	—
Base model	0.676	0.03
With fixed constraint	0.679	0.12
With learned constraint	0.727	0.77

学习约束比基础模型在图像和文本任务上提升了生成质量。
在姿态条件的人物图像生成中，学习到的身体部位一致性约束比基础和固定约束基线在 SSIM 与人工偏好方面表现更好（SSIM：学习到的约束0.727 vs 0.676 基线；人工偏好：0.77 vs 0.03）。
在模板引导的句子生成中，学习到的约束比基础模型和直接约束学习在困惑度和人工判断方面表现更优。
对于隐式模型，该方法通过使用反向 KL 目标和基于重要性采样的梯度估计仍然有效。
学习到的约束在对抗性设置中类似于判别器，但该框架保持模型无关的立场，聚焦于改进生成器。
实验结果表明在学习到的约束下，收敛平滑且训练稳定。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。