Skip to main content
QUICK REVIEW

[论文解读] Style Transfer Generative Adversarial Networks: Learning to Play Chess Differently

M. Chidambaram, Yanjun Qi|arXiv (Cornell University)|Feb 22, 2017
Sports Analytics and Performance被引用 24
一句话总结

本文提出风格迁移生成对抗网络(STGANs),这是一种通用框架,通过判别器对生成器进行正则化,应用于非图像任务中的棋类风格迁移。通过训练生成器评估棋盘位置,并训练判别器区分来自特定棋手(如米哈伊尔·塔尔)的走法,该方法成功实现了风格偏好的迁移,且正则化强度越高,生成的走法序列与目标棋手风格越吻合。

ABSTRACT

The idea of style transfer has largely only been explored in image-based tasks, which we attribute in part to the specific nature of loss functions used for style transfer. We propose a general formulation of style transfer as an extension of generative adversarial networks, by using a discriminator to regularize a generator with an otherwise separate loss function. We apply our approach to the task of learning to play chess in the style of a specific player, and present empirical evidence for the viability of our approach.

研究动机与目标

  • 解决风格迁移在图像任务中受限于任务特定损失函数的问题。
  • 开发一种可泛化的风格迁移框架,超越图像任务,适用于国际象棋等序列决策任务。
  • 通过对抗训练,使游戏AI代理能够学习并模仿特定人类棋风。
  • 证明通过生成对抗网络实现的风格迁移可生成与目标棋手走法选择模式一致的行为。

提出的方法

  • 提出STGANs作为GAN的扩展,其中生成器通过一个判别器进行正则化,该判别器被训练以识别特定棋手风格的走法。
  • 使用全连接前馈神经网络作为生成器,用于评估国际象棋棋盘位置,输入通过768维向量编码棋子位置。
  • 在棋盘三元组(原始位置、合法走法、随机走法)上使用三元组损失,训练生成器在合法走法后保持评估稳定性,并惩罚随机走法。
  • 在真实走法对(来自目标棋手,如米哈伊尔·塔尔)和生成器通过负极大值搜索生成的虚假走法对上训练判别器。
  • 引入一种风格迁移生成器损失,通过从原始生成器损失中减去判别器对生成走法的输出,其中超参数k控制风格影响程度。
  • 采用权重裁剪和WGAN风格的训练动态,每轮生成器更新后更新判别器五次,并对判别器权重应用梯度裁剪。

实验结果

研究问题

  • RQ1能否通过对抗训练将风格迁移推广至非图像任务?
  • RQ2基于GAN的框架能否有效学习并迁移国际象棋等策略性游戏中的真实人类棋风?
  • RQ3在不丧失战略能力的前提下,生成器在多大程度上可被引导以模仿特定棋手的走法选择?
  • RQ4判别器正则化强度(由超参数k控制)如何影响生成走法与目标棋手风格的一致性?

主要发现

  • 基线生成器(k=0)生成的走法与目标棋手风格明显偏离,达到了米哈伊尔·塔尔从未走过的局面。
  • 随着正则化超参数k的增加,生成器的走法评估越来越倾向于与目标棋手风格一致的走法,例如在后翼兵开局中选择d7d5。
  • 当k=2时,生成器在后翼兵开局序列后达到了与塔尔相同的局面,表明其具有强烈的风格一致性。
  • 生成器保持了战略能力,例如f8e7走法仍被正向评估,表明其并未过度拟合塔尔的走法,而是学习到了风格感知的评估能力。
  • 判别器成功区分了目标棋手的真实走法与模型生成的走法,验证了对抗训练目标的有效性。
  • 该方法证明,当使用判别器正则化生成器损失函数时,非图像领域中的风格迁移是可行且有效的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。