[论文解读] Learning to Paint With Model-based Deep Reinforcement Learning
这项工作训练一个基于模型的深度强化学习代理,通过可区分的神经渲染器按顺序地放置数百笔画来绘制目标图像,在 MNIST、SVHN、CelebA 和 ImageNet 上实现逼真的结果,而无需人工笔画数据。
We show how to teach machines to paint like human painters, who can use a small number of strokes to create fantastic paintings. By employing a neural renderer in model-based Deep Reinforcement Learning (DRL), our agents learn to determine the position and color of each stroke and make long-term plans to decompose texture-rich images into strokes. Experiments demonstrate that excellent visual effects can be achieved using hundreds of strokes. The training process does not require the experience of human painters or stroke tracking data. The code is available at https://github.com/hzwer/ICCV2019-LearningToPaint.
研究动机与目标
- 使代理能够将目标图像分解为有序的笔画序列,以在画布上重现图像。
- 开发一个可区分的神经渲染器,使端到端的基于模型的 DRL 绘画训练成为可能。
- 处理连续笔画参数和长期规划,以再现纹理丰富的图像。
- 展示在各种真实世界数据集上的绘画质量,而不需要人工笔画数据。
提出的方法
- 将绘画过程建模为一个带有表示笔画参数的连续动作空间的马尔可夫决策过程。
- 使用基于模型的 DDPG 框架,其中可区分的神经渲染器提供转移动力学和奖励。
- 通过基于 WGAN 的判别器定义奖励,以衡量绘画与目标图像之间的相似度。
- 采用 Action Bundle 策略,在每个训练步骤中预测多笔画并相应调整折扣因子。
- 将笔画表示为带有控制点、厚度、透明度和 RGB 颜色的二次贝塞尔曲线,由可区分的神经渲染器渲染。
- 通过对抗性训练(判别器、评论家)来提高像素级真实感和整体绘画质量。
实验结果
研究问题
- RQ1模型化的 DRL 代理能否学习将目标图像分解为数百笔画并在画布上重建该图像?
- RQ2使用可区分的神经渲染器和基于模型的规划是否比基于模型自由的方式在绘画质量和收敛速度上有提升?
- RQ3奖励设计(基于 WGAN 与 L2)对所生成绘画的真实感和保真度有何影响?
- RQ4笔画数量与动作捆绑设置对从简单到复杂数据集的性能有何影响?
- RQ5该方法在 MNIST、SVHN、CelebA 和 ImageNet 等多样化数据集上的泛化能力如何?
主要发现
- 基于模型的 DDPG 代理在绘画保真度方面明显优于基于模型的变体,在 CelebA 测试中与 PatchQ 的 ell2 距离相比约小 5 倍、与原始 DDPG 相比约小 20 倍。
- 基于 WGAN 的奖励在测试数据上产生更丰富的纹理,并且在某些情况下比单纯的 L2 奖励得到更低的 ell2 损失。
- 增加笔画数量可提高纹理丰富图像的绘画质量(例如 200 笔画 vs 400 笔画 vs 1000 笔画)。
- 每步 5 笔画的 Action Bundle 在学习速度和规划能力之间提供了有利的权衡。
- 该方法支持多种笔画设计(二次贝塞尔曲线、直线、三角形、圆形),并且可以在从数字到自然场景的不同数据集上产生视觉上相似的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。