QUICK REVIEW

[论文解读] Learning to Sketch with Deep Q Networks and Demonstrated Strokes

Tao Zhou, Fang Chen|arXiv (Cornell University)|Oct 14, 2018

Human Pose and Action Recognition参考文献 20被引用 22

一句话总结

本文提出 Doodle-SDQ，一种两阶段深度强化学习框架，通过先利用监督学习模仿人类笔触示范，再通过基于奖励的深度 Q-learning 优化性能，使智能体学会绘画。该方法在多种媒介类型中成功生成多样且逼真的绘画作品，预训练显著提升了在复杂、高维动作空间中的最终性能。

ABSTRACT

Doodling is a useful and common intelligent skill that people can learn and master. In this work, we propose a two-stage learning framework to teach a machine to doodle in a simulated painting environment via Stroke Demonstration and deep Q-learning (SDQ). The developed system, Doodle-SDQ, generates a sequence of pen actions to reproduce a reference drawing and mimics the behavior of human painters. In the first stage, it learns to draw simple strokes by imitating in supervised fashion from a set of strokeaction pairs collected from artist paintings. In the second stage, it is challenged to draw real and more complex doodles without ground truth actions; thus, it is trained with Qlearning. Our experiments confirm that (1) doodling can be learned without direct stepby- step action supervision and (2) pretraining with stroke demonstration via supervised learning is important to improve performance. We further show that Doodle-SDQ is effective at producing plausible drawings in different media types, including sketch and watercolor.

研究动机与目标

开发一种机器学习框架，使人工智能智能体能够在模拟绘画环境中模仿人类涂鸦行为。
通过结合监督学习与强化学习的混合学习方法，解决艺术生成中标签动作数据有限的挑战。
提升在绘画任务典型的大维度动作空间中的样本效率与训练稳定性，此类场景下随机探索效率低下。
使系统无需任务特定微调即可泛化至未见过的涂鸦作品及多种媒介类型（如素描与水彩）。
证明在复杂绘画环境中，使用笔触级别示范进行预训练对强化学习成功至关重要。

提出的方法

该框架采用两阶段训练流程：第一阶段为监督模仿阶段，智能体通过从人类艺术家收集的带标签笔触-动作对学习复现简单笔触。
第二阶段，使用基于当前画布与参考图之间 L2 相似度的密集奖励信号，通过深度 Q-learning 对预训练智能体进行微调。
动作空间包括笔状态（按下/抬起）、笔位置和颜色，每步动作空间约为 200 种离散动作。
为稳定大动作空间中的训练，方法降低探索概率，并引入双流卷积网络：全局流用于捕捉整体画布上下文，局部流聚焦于笔触周围区域，以提升定位精度。
模型采用经验回放与优先经验回放（PER）以提升样本效率，且通过预训练阶段的权重初始化增强收敛性。
系统在支持多种媒介类型的模拟绘画环境（SPE）中进行评估，包括黑白素描、彩色素描与水彩。

实验结果

研究问题

RQ1深度强化学习智能体能否在无逐帧动作监督的情况下复现复杂涂鸦？
RQ2使用笔触级别示范进行预训练在后续绘画任务的强化学习中能多大程度提升性能？
RQ3所提出的双流架构在稳定训练与提升高维动作空间中的定位精度方面效果如何？
RQ4监督模仿与 Q-learning 相结合的混合方法是否能泛化至未见过的涂鸦与多样化媒介类型？
RQ5在动作空间庞大且复杂时，降低探索概率在训练稳定性方面起到何种作用？

主要发现

使用笔触示范进行预训练显著提升了强化学习阶段的最终性能，最佳模型在 QuickDraw 数据集上的平均累积奖励达到 320.5。
采用稀疏探索与预训练阶段权重初始化的模型优于所有基线模型，包括直接在 QuickDraw 数据上微调的模型，证实了两阶段方法的优势。
原始 DQN 在高探索率下无法在大动作空间中收敛，但预训练后移除探索后性能显著提升，表明在此设定下随机探索具有反效果。
双流架构——尤其是聚焦于笔触局部区域的局部流——对成功训练至关重要；即使有预训练与降低探索，若移除该结构仍会导致训练失败。
该模型能良好泛化至未见过的涂鸦与媒介类型，无需微调即可成功生成合理素描与水彩效果。
从素描过渡到彩色素描时，平均累积奖励下降，表明动作空间维度增加仍是挑战，尤其对未来扩展至连续动作（如压力、多色）时更为显著。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。