[论文解读] Synthesizing Programs for Images using Reinforced Adversarial Learning
SPIRAL 训练一个对抗性强化的代理,该代理为图形引擎生成可视程序以渲染图像,使用 Wasserstein GAN 判别器作为奖励,在无监督、端到端设置中引导策略学习。
Advances in deep generative networks have led to impressive results in recent years. Nevertheless, such models can often waste their capacity on the minutiae of datasets, presumably due to weak inductive biases in their decoders. This is where graphics engines may come in handy since they abstract away low-level details and represent images as high-level programs. Current methods that combine deep learning and renderers are limited by hand-crafted likelihood or distance functions, a need for large amounts of supervision, or difficulties in scaling their inference algorithms to richer datasets. To mitigate these issues, we present SPIRAL, an adversarially trained agent that generates a program which is executed by a graphics engine to interpret and sample images. The goal of this agent is to fool a discriminator network that distinguishes between real and rendered data, trained with a distributed reinforcement learning setup without any supervision. A surprising finding is that using the discriminator's output as a reward signal is the key to allow the agent to make meaningful progress at matching the desired output rendering. To the best of our knowledge, this is the first demonstration of an end-to-end, unsupervised and adversarial inverse graphics agent on challenging real world (MNIST, Omniglot, CelebA) and synthetic 3D datasets.
研究动机与目标
- 通过学习结构化的可视化表示来实现可扩展的反向图形学,而无需带标签的程序-图像对。
- 开发一个输出由渲染器执行以生成图像的图形程序片段的策略。
- 利用对抗训练通过强化学习在无监督的情况下将生成的渲染结果与真实图像对齐。
- 证明在真实世界和合成数据集上的适用性,以恢复可解释的场景结构。
提出的方法
- 使用将一系列程序命令 a 转换为图像的黑盒渲染仿真器 R。
- 用递归策略网络 π 来生成命令序列来对 a 进行建模。
- 采用带判别器 D 的 Wasserstein GAN 目标来区分真实图像和渲染图像,为策略提供奖励。
- 通过策略梯度强化学习(A2C)利用判别器分数作为最终奖励来训练 π。
- 实现分布式学习,包含产生轨迹的参与者、更新 π 的策略学习者、以及更新 D 的判别器学习者。
实验结果
研究问题
- RQ1一个通过对抗性训练的强化学习代理在无监督条件下是否能够发现可解释的视觉程序,从而渲染出逼真的图像?
- RQ2将判别器的输出作为奖励是否比直接像素级优化提升收敛速度和重建质量?
- RQ3该方法在真实世界数据集(MNIST、Omniglot、CelebA)和一个合成的三维场景数据集上有多大程度的扩展性?
- RQ4对模型进行条件生成(以目标图像或场景为条件的程序合成)有什么影响?
主要发现
- SPIRAL代理能够生成可解释的笔画和场景描述,从而在 MNIST、Omniglot、CelebA 以及基于 MuJoCo 的三维场景中重构或采样图像。
- 使用判别器奖励进行训练在许多情况下加速学习并产生比直接L2最小化更低的最终像素误差。
- 条件生成能够重构目标图像、恢复底层笔画序列并解析复杂场景,尽管在不同数据集上难度各不相同。
- 判别器奖励使在 L2 奖励无法生成合理重建的设置中也能进行学习(例如 Omniglot 和 CelebA)。
- 一个分布式的受 IMPALA 启发的异步 actor 和重放缓冲区支持非微分渲染器的可扩展训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。